9 pontos por xguru 2020-09-09 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Uso do Presto em grande escala: 40 mil servidores, ~1 exabyte de dados escaneados por dia, mais de 80% são novos ETLs

→ Separação entre computação e armazenamento

  • O Presto funcionava bem, mas para consultas mais rápidas (menos de 1 segundo), foi desenvolvido o Raptor

→ Cache em SSD local, metastore em nível de arquivo

→ Computação e armazenamento voltaram a ficar acoplados → escalabilidade e gerenciamento ficaram mais difíceis

  • Desde o outono do ano passado, começaram a desenvolver um substituto para o Raptor modificando o Alluxio: Alluxio Local Cache

→ Desempenho parecido com o do Raptor, mas sem necessidade de cache em SSD local

→ O Alluxio é um sistema de arquivos distribuído virtual que atua como uma ponte em memória, conectando vários engines de computação a vários storages

  • Alluxio Local Cache

→ Incluído na release oficial a partir da versão 2.2

→ Biblioteca que pode ser embutida na JVM do servidor Presto sem necessidade de usar o Alluxio completo

  • O Raptor foi quase totalmente removido de toda a frota de Presto do Facebook, com instalação do Alluxio Local Cache

→ Os dados do Facebook podem ser acessados em formato de arquivo ORC por meio da interface HDFS

→ Também usa SSD local, mas se não estiver no cache, é possível acessar o storage remoto

→ Ganho de desempenho de cerca de 30% a 50% no Presto

→ Redução de 57% no acesso ao storage remoto em comparação com o Raptor

→ Taxa de acerto do cache do Alluxio acima de 90%

→ O Raptor deve ser totalmente removido em até 6 meses

Ainda não há comentários.

Ainda não há comentários.