8 pontos por GN⁺ 2025-04-01 | 2 comentários | Compartilhar no WhatsApp
  • A infraestrutura de dados das empresas evolui junto com os avanços tecnológicos, viabilizando novos produtos e serviços
  • A infraestrutura de dados evoluiu dos data warehouses on-premises para data warehouses baseados em nuvem e data lakes
  • Recentemente, com o rápido avanço da IA, uma nova arquitetura chamada data lakehouse ganhou força, marcando a entrada na era do Data 3.0
  • O lakehouse é uma plataforma unificada de alto desempenho e interoperável que atende a diversos casos de uso, como workloads analíticos e de IA, reimaginando o núcleo da infraestrutura de dados corporativa
  • Com isso, aumenta a possibilidade de surgirem novas empresas de infraestrutura de dados avaliadas em dezenas de bilhões de dólares

O pano de fundo da revolução do lakehouse

  • De 2019 a 2024, o investimento empresarial em infraestrutura de dados quase dobrou, de cerca de US$ 180 bilhões para US$ 350 bilhões
  • Os data warehouses e data lakes tradicionais não atendem plenamente aos requisitos da IA
  • Workloads centrados em IA têm os seguintes requisitos:
    • Precisam lidar com dados estruturados, semiestruturados e não estruturados
    • Precisam permitir processamento de dados em tempo real, multimodal e componível
    • Exigem interoperabilidade entre bancos de dados tradicionais e bancos de dados vetoriais
  • Mudanças na demanda dos clientes corporativos:
    • Exigência de eliminar duplicação de dados
    • Aumento da complexidade da governança de dados
    • Necessidade de escapar do lock-in de fornecedores e ganhar flexibilidade
    • Dificuldade em encontrar soluções adequadas para IA

Formatos abertos de tabela tornam o lakehouse possível

  • Open Table Formats (OTF) como Delta Lake, Iceberg e Hudi formam a base do lakehouse
  • Principais recursos:
    • Suporte a transações ACID: garante consistência e estabilidade dos dados
    • Suporte a processamento em batch e streaming
    • Flexibilidade de esquema e particionamento
    • Capacidade de time travel para restaurar estados anteriores
    • Gerenciamento de metadados escalável

O surgimento do paradigma lakehouse

  • O data lakehouse é uma nova arquitetura que combina o desempenho do data warehouse com a flexibilidade do data lake
  • Está emergindo como infraestrutura de próxima geração para aplicações baseadas em IA, analytics em tempo real e inteligência empresarial
  • Grandes empresas e startups estão acelerando a transição para lakehouse, formando um novo mercado relacionado a isso

Tese 1: Ingestão e transformação centradas em IA viabilizam pipelines inteligentes em tempo real

  • Ferramentas ETL tradicionais são ineficientes na escala exigida pela IA
  • Prefect, Windmill e dltHub oferecem suporte a pipelines de dados baseados em código e orquestração
  • Ferramentas como Tobiko oferecem automação de SQL, data lineage, rastreamento de dependências e mais
  • O Model Context Protocol (MCP) da Anthropic fornece uma interface padronizada para preservar o contexto em workflows de IA
  • Apache Kafka e Flink oferecem recursos de mensageria e processamento de streaming essenciais para treinamento e inferência de modelos em tempo real
  • A Chalk AI oferece uma plataforma de inferência em tempo real que contribui para decisões mais rápidas
  • A camada de metadados está emergindo como uma importante fonte da verdade (source of truth) na era da IA

Tese 2: Cresce a importância estratégica da camada de metadados

  • Metadados deixaram de ser apenas informação e se tornaram uma camada central que induz ação
  • Open Table Formats como Iceberg, Delta Lake e Hudi estão impulsionando a inovação em metadados
  • Surgem catálogos nativos de lakehouse como Datastrato e Vakamo
  • O DataHub, da Acryl Data, oferece suporte a acesso a dados e governança para humanos e agentes de IA
  • OpenHouse, Apache Amoro e Ryft oferecem um Control Plane centrado em metadados
  • Flarion.io e Greybeam estão desenvolvendo ferramentas de otimização de desempenho em camadas fora do armazenamento

Tese 3: Mudanças em computação e motores de consulta

  • Com a disseminação do lakehouse, sai de cena a estrutura tradicional centrada em uma plataforma única e entra uma arquitetura modular
  • Além de Snowflake e Databricks, soluções especializadas como DuckDB, ClickHouse e Druid também estão crescendo
  • Daft, typedef, Mooncake e Bauplan estão desenvolvendo novos frameworks de computação para otimização centrada em IA
  • O surgimento de motores de consulta otimizados para IA e plataformas de computação federada está criando um novo padrão para processamento de dados

Tese 4: A fronteira entre engenharia de dados e engenharia de software está ficando difusa

  • Aplicações centradas em IA estão mudando na direção de todos os desenvolvedores adquirirem capacidades centradas em dados
  • A dbt Labs introduziu práticas de engenharia de software, como controle de versão, testes e CI/CD, no desenvolvimento de dados
  • A Gable oferece suporte à construção de pipelines de dados com uma interface amigável
  • Temporal e Inngest garantem confiabilidade e visibilidade para workflows distribuídos complexos
  • As contribuições para open source estão crescendo rapidamente, e a taxa de crescimento dos projetos relacionados a dados no GitHub é maior do que a de software em geral
  • Cresce a adoção de open source para aproveitar melhor o suporte de LLMs
  • À medida que engenharia centrada em IA e em dados se fundem, a estrutura das equipes e a forma de desenvolvimento mudam de maneira fundamental

2 comentários

 
halfenif 2025-04-01

O que vem depois do Lakehouse?

Será Dataland?

 
yangeok 2025-04-01

Espero que os custos diminuam para que startups também possam tentar isso haha