5 tendências de dados em 2021
(towardsdatascience.com)-
Integração entre data lakes e warehouses, o Data Lakehouse
-
A "pilha de dados moderna" ganha espaço no mainstream: integração de principais ferramentas baseadas em nuvem
→ Data Ingestion: Fivetran, Stitch, Hevodata
→ Data Warehouse: Snowflake, BigQuery
→ Data Lake: Amazon S3
→ Data Lake Processing: Presto, Dremio, Databricks, Starburst
→ Data Transformation: dbt, Matillion
→ Metadata Management: Atlan
→ BI Tools: Looker
- Metadados 3.0: o renascimento da gestão de metadados
→ Ferramentas para lidar com data discovery, data catalog, data lineage, observability etc. devem ganhar força
- Surgimento de novas funções
→ Data Platform Leader: líder que ajuda a aplicar a plataforma de dados ao trabalho dentro da organização
→ Analytics Engineer: com o surgimento de ferramentas como dbt, tornou-se possível o engenheiro de analytics que não apenas analisa, mas também manipula a pilha de dados
- Ascensão dos frameworks de qualidade de dados
→ Data profiling: revisar os dados, verificar a qualidade e identificar formas de uso futuro
→ Definição de regras de qualidade de dados orientadas ao negócio
→ Introdução de testes de qualidade nos pipelines de dados: Amazon Deequ, Great Expectations
2 comentários
Para o item 2, sobre a "stack de dados moderna", consulte a série "Entendendo a infraestrutura de dados moderna" no YouTube do GeekNews ;)
https://youtube.com/playlist/?list=PLL-_zEJctPoJ92HmbGxFv1Pv_ugsggGD2
Acho que os itens 3 e 5 também serão abordados mais para o fim da série.
Sempre acompanho com atenção cada novo episódio da série "Entendendo a infraestrutura de dados moderna".
Como acabo usando no dia a dia apenas aquilo com que já estou acostumado, é difícil entrar em contato com novas tendências, então agradeço por explicarem isso tão bem.