Roadmap: Data 3.0 na era do Lakehouse

(bvp.com)

8 pontos por GN⁺ 2025-04-01 | 2 comentários | Compartilhar no WhatsApp

A infraestrutura de dados das empresas evolui junto com os avanços tecnológicos, viabilizando novos produtos e serviços
A infraestrutura de dados evoluiu dos data warehouses on-premises para data warehouses baseados em nuvem e data lakes
Recentemente, com o rápido avanço da IA, uma nova arquitetura chamada data lakehouse ganhou força, marcando a entrada na era do Data 3.0
O lakehouse é uma plataforma unificada de alto desempenho e interoperável que atende a diversos casos de uso, como workloads analíticos e de IA, reimaginando o núcleo da infraestrutura de dados corporativa
Com isso, aumenta a possibilidade de surgirem novas empresas de infraestrutura de dados avaliadas em dezenas de bilhões de dólares

O pano de fundo da revolução do lakehouse

De 2019 a 2024, o investimento empresarial em infraestrutura de dados quase dobrou, de cerca de US$ 180 bilhões para US$ 350 bilhões
Os data warehouses e data lakes tradicionais não atendem plenamente aos requisitos da IA
Workloads centrados em IA têm os seguintes requisitos:
- Precisam lidar com dados estruturados, semiestruturados e não estruturados
- Precisam permitir processamento de dados em tempo real, multimodal e componível
- Exigem interoperabilidade entre bancos de dados tradicionais e bancos de dados vetoriais
Mudanças na demanda dos clientes corporativos:
- Exigência de eliminar duplicação de dados
- Aumento da complexidade da governança de dados
- Necessidade de escapar do lock-in de fornecedores e ganhar flexibilidade
- Dificuldade em encontrar soluções adequadas para IA

Open Table Formats (OTF) como Delta Lake, Iceberg e Hudi formam a base do lakehouse
Principais recursos:
- Suporte a transações ACID: garante consistência e estabilidade dos dados
- Suporte a processamento em batch e streaming
- Flexibilidade de esquema e particionamento
- Capacidade de time travel para restaurar estados anteriores
- Gerenciamento de metadados escalável

O data lakehouse é uma nova arquitetura que combina o desempenho do data warehouse com a flexibilidade do data lake
Está emergindo como infraestrutura de próxima geração para aplicações baseadas em IA, analytics em tempo real e inteligência empresarial
Grandes empresas e startups estão acelerando a transição para lakehouse, formando um novo mercado relacionado a isso

Ferramentas ETL tradicionais são ineficientes na escala exigida pela IA
Prefect, Windmill e dltHub oferecem suporte a pipelines de dados baseados em código e orquestração
Ferramentas como Tobiko oferecem automação de SQL, data lineage, rastreamento de dependências e mais
O Model Context Protocol (MCP) da Anthropic fornece uma interface padronizada para preservar o contexto em workflows de IA
Apache Kafka e Flink oferecem recursos de mensageria e processamento de streaming essenciais para treinamento e inferência de modelos em tempo real
A Chalk AI oferece uma plataforma de inferência em tempo real que contribui para decisões mais rápidas
A camada de metadados está emergindo como uma importante fonte da verdade (source of truth) na era da IA

Metadados deixaram de ser apenas informação e se tornaram uma camada central que induz ação
Open Table Formats como Iceberg, Delta Lake e Hudi estão impulsionando a inovação em metadados
Surgem catálogos nativos de lakehouse como Datastrato e Vakamo
O DataHub, da Acryl Data, oferece suporte a acesso a dados e governança para humanos e agentes de IA
OpenHouse, Apache Amoro e Ryft oferecem um Control Plane centrado em metadados
Flarion.io e Greybeam estão desenvolvendo ferramentas de otimização de desempenho em camadas fora do armazenamento

Com a disseminação do lakehouse, sai de cena a estrutura tradicional centrada em uma plataforma única e entra uma arquitetura modular
Além de Snowflake e Databricks, soluções especializadas como DuckDB, ClickHouse e Druid também estão crescendo
Daft, typedef, Mooncake e Bauplan estão desenvolvendo novos frameworks de computação para otimização centrada em IA
O surgimento de motores de consulta otimizados para IA e plataformas de computação federada está criando um novo padrão para processamento de dados

Aplicações centradas em IA estão mudando na direção de todos os desenvolvedores adquirirem capacidades centradas em dados
A dbt Labs introduziu práticas de engenharia de software, como controle de versão, testes e CI/CD, no desenvolvimento de dados
A Gable oferece suporte à construção de pipelines de dados com uma interface amigável
Temporal e Inngest garantem confiabilidade e visibilidade para workflows distribuídos complexos
As contribuições para open source estão crescendo rapidamente, e a taxa de crescimento dos projetos relacionados a dados no GitHub é maior do que a de software em geral
Cresce a adoção de open source para aproveitar melhor o suporte de LLMs
À medida que engenharia centrada em IA e em dados se fundem, a estrutura das equipes e a forma de desenvolvimento mudam de maneira fundamental

halfenif 2025-04-01

O que vem depois do Lakehouse?

Será Dataland?

yangeok 2025-04-01

Espero que os custos diminuam para que startups também possam tentar isso haha