- A infraestrutura de dados das empresas evolui junto com os avanços tecnológicos, viabilizando novos produtos e serviços
- A infraestrutura de dados evoluiu dos data warehouses on-premises para data warehouses baseados em nuvem e data lakes
- Recentemente, com o rápido avanço da IA, uma nova arquitetura chamada data lakehouse ganhou força, marcando a entrada na era do Data 3.0
- O lakehouse é uma plataforma unificada de alto desempenho e interoperável que atende a diversos casos de uso, como workloads analíticos e de IA, reimaginando o núcleo da infraestrutura de dados corporativa
- Com isso, aumenta a possibilidade de surgirem novas empresas de infraestrutura de dados avaliadas em dezenas de bilhões de dólares
O pano de fundo da revolução do lakehouse
- De 2019 a 2024, o investimento empresarial em infraestrutura de dados quase dobrou, de cerca de US$ 180 bilhões para US$ 350 bilhões
- Os data warehouses e data lakes tradicionais não atendem plenamente aos requisitos da IA
- Workloads centrados em IA têm os seguintes requisitos:
- Precisam lidar com dados estruturados, semiestruturados e não estruturados
- Precisam permitir processamento de dados em tempo real, multimodal e componível
- Exigem interoperabilidade entre bancos de dados tradicionais e bancos de dados vetoriais
- Mudanças na demanda dos clientes corporativos:
- Exigência de eliminar duplicação de dados
- Aumento da complexidade da governança de dados
- Necessidade de escapar do lock-in de fornecedores e ganhar flexibilidade
- Dificuldade em encontrar soluções adequadas para IA
Formatos abertos de tabela tornam o lakehouse possível
- Open Table Formats (OTF) como Delta Lake, Iceberg e Hudi formam a base do lakehouse
- Principais recursos:
- Suporte a transações ACID: garante consistência e estabilidade dos dados
- Suporte a processamento em batch e streaming
- Flexibilidade de esquema e particionamento
- Capacidade de time travel para restaurar estados anteriores
- Gerenciamento de metadados escalável
O surgimento do paradigma lakehouse
- O data lakehouse é uma nova arquitetura que combina o desempenho do data warehouse com a flexibilidade do data lake
- Está emergindo como infraestrutura de próxima geração para aplicações baseadas em IA, analytics em tempo real e inteligência empresarial
- Grandes empresas e startups estão acelerando a transição para lakehouse, formando um novo mercado relacionado a isso
Tese 1: Ingestão e transformação centradas em IA viabilizam pipelines inteligentes em tempo real
- Ferramentas ETL tradicionais são ineficientes na escala exigida pela IA
- Prefect, Windmill e dltHub oferecem suporte a pipelines de dados baseados em código e orquestração
- Ferramentas como Tobiko oferecem automação de SQL, data lineage, rastreamento de dependências e mais
- O Model Context Protocol (MCP) da Anthropic fornece uma interface padronizada para preservar o contexto em workflows de IA
- Apache Kafka e Flink oferecem recursos de mensageria e processamento de streaming essenciais para treinamento e inferência de modelos em tempo real
- A Chalk AI oferece uma plataforma de inferência em tempo real que contribui para decisões mais rápidas
- A camada de metadados está emergindo como uma importante fonte da verdade (source of truth) na era da IA
Tese 2: Cresce a importância estratégica da camada de metadados
- Metadados deixaram de ser apenas informação e se tornaram uma camada central que induz ação
- Open Table Formats como Iceberg, Delta Lake e Hudi estão impulsionando a inovação em metadados
- Surgem catálogos nativos de lakehouse como Datastrato e Vakamo
- O DataHub, da Acryl Data, oferece suporte a acesso a dados e governança para humanos e agentes de IA
- OpenHouse, Apache Amoro e Ryft oferecem um Control Plane centrado em metadados
- Flarion.io e Greybeam estão desenvolvendo ferramentas de otimização de desempenho em camadas fora do armazenamento
Tese 3: Mudanças em computação e motores de consulta
- Com a disseminação do lakehouse, sai de cena a estrutura tradicional centrada em uma plataforma única e entra uma arquitetura modular
- Além de Snowflake e Databricks, soluções especializadas como DuckDB, ClickHouse e Druid também estão crescendo
- Daft, typedef, Mooncake e Bauplan estão desenvolvendo novos frameworks de computação para otimização centrada em IA
- O surgimento de motores de consulta otimizados para IA e plataformas de computação federada está criando um novo padrão para processamento de dados
Tese 4: A fronteira entre engenharia de dados e engenharia de software está ficando difusa
- Aplicações centradas em IA estão mudando na direção de todos os desenvolvedores adquirirem capacidades centradas em dados
- A dbt Labs introduziu práticas de engenharia de software, como controle de versão, testes e CI/CD, no desenvolvimento de dados
- A Gable oferece suporte à construção de pipelines de dados com uma interface amigável
- Temporal e Inngest garantem confiabilidade e visibilidade para workflows distribuídos complexos
- As contribuições para open source estão crescendo rapidamente, e a taxa de crescimento dos projetos relacionados a dados no GitHub é maior do que a de software em geral
- Cresce a adoção de open source para aproveitar melhor o suporte de LLMs
- À medida que engenharia centrada em IA e em dados se fundem, a estrutura das equipes e a forma de desenvolvimento mudam de maneira fundamental
2 comentários
O que vem depois do Lakehouse?
Será Dataland?
Espero que os custos diminuam para que startups também possam tentar isso haha