Como o Facebook acelera SQL
(datanami.com)- Uso do Presto em grande escala: 40 mil servidores, ~1 exabyte de dados escaneados por dia, mais de 80% são novos ETLs
→ Separação entre computação e armazenamento
- O Presto funcionava bem, mas para consultas mais rápidas (menos de 1 segundo), foi desenvolvido o Raptor
→ Cache em SSD local, metastore em nível de arquivo
→ Computação e armazenamento voltaram a ficar acoplados → escalabilidade e gerenciamento ficaram mais difíceis
- Desde o outono do ano passado, começaram a desenvolver um substituto para o Raptor modificando o Alluxio: Alluxio Local Cache
→ Desempenho parecido com o do Raptor, mas sem necessidade de cache em SSD local
→ O Alluxio é um sistema de arquivos distribuído virtual que atua como uma ponte em memória, conectando vários engines de computação a vários storages
- Alluxio Local Cache
→ Incluído na release oficial a partir da versão 2.2
→ Biblioteca que pode ser embutida na JVM do servidor Presto sem necessidade de usar o Alluxio completo
- O Raptor foi quase totalmente removido de toda a frota de Presto do Facebook, com instalação do Alluxio Local Cache
→ Os dados do Facebook podem ser acessados em formato de arquivo ORC por meio da interface HDFS
→ Também usa SSD local, mas se não estiver no cache, é possível acessar o storage remoto
→ Ganho de desempenho de cerca de 30% a 50% no Presto
→ Redução de 57% no acesso ao storage remoto em comparação com o Raptor
→ Taxa de acerto do cache do Alluxio acima de 90%
→ O Raptor deve ser totalmente removido em até 6 meses
Ainda não há comentários.