8 pontos por yechoi 2023-09-05 | Ainda não há comentários. | Compartilhar no WhatsApp
  • O time da plataforma de dados da LINE definiu a direção de descontinuar gradualmente o uso de Hive e migrar para o ambiente Spark
  • Método de migração - trocar o engine e, se houver problemas, alterar as consultas
  • Casos de alteração de consultas:
    • Quando foi usada uma tabela temporária (CREATE TEMPORARY TABLE)
    • Quando foram usadas conversões implícitas de tipo que violam a política ANSI (Store Assignment Policy)
    • Quando havia problemas com um UDF em uso
    • Quando foi introduzido um novo UDF
    • Quando foram usadas operações de conjunto em um tipo map
    • Quando era necessário excluir várias partições
  • Após a migração, houve ausência de determinados dados, e foi realizado um troubleshooting
  • Cinco tipos de problemas observados e formas de resposta:
    • Ausência de parte dos resultados após a execução da consulta
    • Impossibilidade de ler dados quando existem subdiretórios dentro do diretório da partição
    • Falha de consultas que usam a partição porque o diretório da partição é excluído durante a execução do job
    • Ao ler dados de uma partição e gravá-los em outra partição da mesma tabela, ocorre AnalysisException("Cannot overwrite a path that is also being read from")
    • Os resultados são duplicados e carregados em dobro
  • Além do OpenChat, há o plano de migrar para Spark, ainda este ano, todas as centenas de consultas dos vários domínios atualmente sob responsabilidade da equipe

Ainda não há comentários.

Ainda não há comentários.