- Torna possível para engenheiros de análise conectar diversos silos de dados e criar uma visão unificada
→ Ferramenta de ML sem código para unificação de dados
- Por que isso é necessário?
→ Em dados reais, existem vários registros para cada cliente
→ Cada registro fica distribuído em sistemas únicos/múltiplos, então, quando os dados crescem, a análise de clientes se torna difícil
→ No ELT, o T exige muito esforço, e ferramentas como dbt conseguem lidar com isso com sucesso
→ É necessário “criar uma Single Source of Truth” para os principais objetos de negócio antes da extração ou do carregamento, de forma rápida e escalável
- Casos úteis
→ Criação de uma visão unificada/confiável de clientes presentes em múltiplos sistemas
→ Verificação de entidades em larga escala, como AML/KYC
→ Remoção de duplicidades e qualidade de dados
→ Fusão de silos de dados
→ Enriquecimento de dados de fontes externas
- Fontes compatíveis
→ Snowflake, Cassandra, S3, Azure, Elastic, principais bancos de dados relacionais e fontes de dados com suporte a Spark
→ Também suporta arquivos como Parquet, Avro, JSON, XLSX, CSV e TSV
Ainda não há comentários.