Resolvendo problemas ao migrar de HiveQL para Spark SQL

yechoi · 2023-09-05T18:35:38+09:00

O time da plataforma de dados da LINE definiu a direção de descontinuar gradualmente o uso de Hive e migrar para o ambiente Spark Método de migração - trocar o engine e, se houver problemas, alterar as consultas Casos de alteração de consultas: Quando foi usada uma tabela temporária (CREATE TEMPORARY TABLE) Quando foram usadas conversões implícitas de tipo que violam a política ANSI (Store Assignment Policy) Quando havia problemas com um UDF em uso Quando foi introduzido um novo UDF Quando foram usadas operações de conjunto em um tipo map Quando era necessário excluir várias partições Após a migração, houve ausência de determinados dados, e foi realizado um troubleshooting Cinco tipos de problemas observados e formas de resposta: Ausência de parte dos resultados após a execução da consulta Impossibilidade de ler dados quando existem subdiretórios dentro do diretório da partição Falha de consultas que usam a partição porque o diretório da partição é excluído durante a execução do job Ao ler dados de uma partição e gravá-los em outra partição da mesma tabela, ocorre AnalysisException("Cannot overwrite a path that is also being read from") Os resultados são duplicados e carregados em dobro Além do OpenChat, há o plano de migrar para Spark, ainda este ano, todas as centenas de consultas dos vários domínios atualmente sob responsabilidade da equipe

(engineering.linecorp.com)

8 pontos por yechoi 2023-09-05 | Ainda não há comentários. | Compartilhar no WhatsApp

O time da plataforma de dados da LINE definiu a direção de descontinuar gradualmente o uso de Hive e migrar para o ambiente Spark
Método de migração - trocar o engine e, se houver problemas, alterar as consultas
Casos de alteração de consultas:
- Quando foi usada uma tabela temporária (CREATE TEMPORARY TABLE)
- Quando foram usadas conversões implícitas de tipo que violam a política ANSI (Store Assignment Policy)
- Quando havia problemas com um UDF em uso
- Quando foi introduzido um novo UDF
- Quando foram usadas operações de conjunto em um tipo map
- Quando era necessário excluir várias partições
Após a migração, houve ausência de determinados dados, e foi realizado um troubleshooting
Cinco tipos de problemas observados e formas de resposta:
- Ausência de parte dos resultados após a execução da consulta
- Impossibilidade de ler dados quando existem subdiretórios dentro do diretório da partição
- Falha de consultas que usam a partição porque o diretório da partição é excluído durante a execução do job
- Ao ler dados de uma partição e gravá-los em outra partição da mesma tabela, ocorre AnalysisException("Cannot overwrite a path that is also being read from")
- Os resultados são duplicados e carregados em dobro
Além do OpenChat, há o plano de migrar para Spark, ainda este ano, todas as centenas de consultas dos vários domínios atualmente sob responsabilidade da equipe

Resolvendo problemas ao migrar de HiveQL para Spark SQL

Leituras relacionadas

Ainda não há comentários.