Como construímos CI/CD para AWS RedShift
(medium.com)Como a Here Mobility construiu CI/CD de banco de dados para engenheiros e analistas de dados.
-
Antes, a equipe de análise enviava os dados do data lake no S3 para o RedShift com ETL em PySpark. Os scripts SQL para isso também ficavam sob responsabilidade da equipe de análise
-
O código em PySpark não tinha problemas porque seguia o CI/CD da aplicação, mas o código SQL para RedShift era difícil de testar, versionar e rastrear.
-
Foi desenvolvida a
redCI, uma ferramenta de CI/CD dedicada ao RedShift que faz controle de versão, validação de código, integração ao pipeline do Jenkins e implantação automática no RedShift -
redCI- em código Python, consegue se conectar ao Redshift e ao Postgres, ler e executar arquivos de script compatíveis com PSQL. Converte a sintaxe do Redshift para PSQL. Com isso, é possível executar testes unitários -
Problema que surge na implementação real: o RedShift é baseado no Postgres 8, mas como as funções suportadas são diferentes, podem surgir problemas. Isso foi resolvido convertendo e executando em um Postgres levantado com Docker.
2 comentários
Here era a antiga Navteq, depois foi adquirida pela Nokia e agora é uma empresa de serviços de mapas/informações de localização adquirida pelo consórcio alemão Audi/BMW/Daimler AG.
Seria bom se eles abrissem o próprio redCI como open source, mas parece que ainda não chegaram a esse ponto.