- O time da plataforma de dados da LINE definiu a direção de descontinuar gradualmente o uso de Hive e migrar para o ambiente Spark
- Método de migração - trocar o engine e, se houver problemas, alterar as consultas
- Casos de alteração de consultas:
- Quando foi usada uma tabela temporária (
CREATE TEMPORARY TABLE)
- Quando foram usadas conversões implícitas de tipo que violam a política ANSI (
Store Assignment Policy)
- Quando havia problemas com um UDF em uso
- Quando foi introduzido um novo UDF
- Quando foram usadas operações de conjunto em um tipo
map
- Quando era necessário excluir várias partições
- Após a migração, houve ausência de determinados dados, e foi realizado um troubleshooting
- Cinco tipos de problemas observados e formas de resposta:
- Ausência de parte dos resultados após a execução da consulta
- Impossibilidade de ler dados quando existem subdiretórios dentro do diretório da partição
- Falha de consultas que usam a partição porque o diretório da partição é excluído durante a execução do job
- Ao ler dados de uma partição e gravá-los em outra partição da mesma tabela, ocorre
AnalysisException("Cannot overwrite a path that is also being read from")
- Os resultados são duplicados e carregados em dobro
- Além do OpenChat, há o plano de migrar para Spark, ainda este ano, todas as centenas de consultas dos vários domínios atualmente sob responsabilidade da equipe
Ainda não há comentários.