15 pontos por xguru 2021-02-02 | 2 comentários | Compartilhar no WhatsApp
  1. Integração entre data lakes e warehouses, o Data Lakehouse

  2. A "pilha de dados moderna" ganha espaço no mainstream: integração de principais ferramentas baseadas em nuvem

→ Data Ingestion: Fivetran, Stitch, Hevodata

→ Data Warehouse: Snowflake, BigQuery

→ Data Lake: Amazon S3

→ Data Lake Processing: Presto, Dremio, Databricks, Starburst

→ Data Transformation: dbt, Matillion

→ Metadata Management: Atlan

→ BI Tools: Looker

  1. Metadados 3.0: o renascimento da gestão de metadados

→ Ferramentas para lidar com data discovery, data catalog, data lineage, observability etc. devem ganhar força

  1. Surgimento de novas funções

→ Data Platform Leader: líder que ajuda a aplicar a plataforma de dados ao trabalho dentro da organização

→ Analytics Engineer: com o surgimento de ferramentas como dbt, tornou-se possível o engenheiro de analytics que não apenas analisa, mas também manipula a pilha de dados

  1. Ascensão dos frameworks de qualidade de dados

→ Data profiling: revisar os dados, verificar a qualidade e identificar formas de uso futuro

→ Definição de regras de qualidade de dados orientadas ao negócio

→ Introdução de testes de qualidade nos pipelines de dados: Amazon Deequ, Great Expectations

2 comentários

 
xguru 2021-02-02

Para o item 2, sobre a "stack de dados moderna", consulte a série "Entendendo a infraestrutura de dados moderna" no YouTube do GeekNews ;)

https://youtube.com/playlist/?list=PLL-_zEJctPoJ92HmbGxFv1Pv_ugsggGD2

Acho que os itens 3 e 5 também serão abordados mais para o fim da série.

 
kwangyeol 2021-02-06

Sempre acompanho com atenção cada novo episódio da série "Entendendo a infraestrutura de dados moderna".

Como acabo usando no dia a dia apenas aquilo com que já estou acostumado, é difícil entrar em contato com novas tendências, então agradeço por explicarem isso tão bem.