Nova arquitetura 2.0 para a infraestrutura de dados moderna
(future.a16z.com)Atualização 2.0 do texto publicado em 2020
Changelog
- 2 novas áreas que cresceram rapidamente
- Ferramentas para dar suporte a processos e fluxos de trabalho de dados essenciais, como descoberta de dados, observabilidade e auditoria de modelos de ML
- Novas aplicações, como data workspaces, reverse ETL e frameworks de aplicações de ML, que permitem que equipes de dados e usuários de negócio gerem valor a partir dos dados
- Itens adicionados em BI
- Metrics Layer: novas ferramentas puras como Transform e Supergrain. E o dbt se expandindo para essa área
- Reverse ETL: Hightouch, Census
- Data Workspace: Hex, Mode, Deepnote
- Data Discovery & Observability: Monte Carlo e Big Eye captaram grandes volumes de investimento. Também há muitas empresas em estágio seed, como Select Star, Metaphor, Stemma, Secoda e Castor
- Itens adicionados em Multimodal Data Processing
- Abordagem para a arquitetura Lakehouse
- Camada de armazenamento atualizada: Delta/Iceberg/Hudi estão sendo mais adotados e comercializados
- Adoção crescente de stream processing: processamento de dados analíticos em tempo real. Materialize/Upsolver
- Itens adicionados em AI & ML
- Integração em torno de uma abordagem data-centric
- Rotulagem de dados: Scale, Labelbox. Crescente interesse em Closed-loop Data Engine
- Maior adoção de feature stores: Tecton, Feast, Databricks
- Soluções de ML low-code: Continual, MindsDB, DataRobot, AutoML, Roboflow, Akkio
- O uso de modelos pré-treinados está se tornando o padrão, especialmente em NLP. OpenAI & Hugging Face
- MLOps está amadurecendo, e casos de uso e orçamentos voltados a ML Monitoring estão aumentando
- Também há grande interesse em como integrar modelos de ML a aplicações. APIs prontas (OpenAI), bancos de dados vetoriais (Pinecone) etc.
- Integração em torno de uma abordagem data-centric
Hipótese da plataforma de dados
- No último ano, o stack de infraestrutura de dados viu uma rápida expansão de sistemas centrais e ferramentas de apoio, e para explicar por que isso está acontecendo, é apresentada a ideia de uma "plataforma de dados"
- O que é uma plataforma?
- No ecossistema de dados, "plataforma" é um termo sobrecarregado. É usado por equipes internas para se referir ao stack tecnológico inteiro, ou por vendors que vendem suítes de produtos conectadas de forma frouxa
- Em software, uma plataforma é algo sobre o qual outros desenvolvedores podem construir
- A característica que define uma plataforma, sob uma perspectiva industrial, é a "interdependência" entre um provedor de plataforma influente (tecnológica e economicamente) e um conjunto de desenvolvedores terceiros
- O que é uma plataforma de dados?
- Historicamente, o stack de dados não se encaixava na definição de plataforma
- Havia interdependência entre vendors de ETL, data warehouse e reporting, mas o modelo de integração tendia a ser mais 1:1 do que 1:many. Em geral, serviços profissionais completavam essa lacuna
- Com base em conversas com muitos profissionais de dados, isso pode estar começando a mudar
- A hipótese da plataforma afirma que o "backend" do stack de dados (da ingestão ao armazenamento, processamento e transformação de dados) está começando a se integrar em alguns vendors baseados em nuvem
- Como resultado, os conjuntos de dados dos clientes estão sendo reunidos em um conjunto padrão de sistemas, e os vendors estão tornando esses dados facilmente acessíveis a outros desenvolvedores (por meio de princípios de design fundamentais da Databricks, padrões SQL e APIs como o Snowpark da Snowflake)
- Assim como desenvolvedores frontend se beneficiaram de integrações em ponto único, agora é possível acessar dados integrados sem se preocupar com a infraestrutura subjacente
- Também começam a surgir sistemas empresariais tradicionais, como finanças e product analytics, sendo reconstruídos com arquitetura "warehouse-native"
- Isso não significa que bancos de dados OLTP ou outras tecnologias críticas de backend vão desaparecer em breve
- Mas a integração nativa com sistemas OLAP pode se tornar um componente central do desenvolvimento de aplicações
- Cada vez mais lógica de negócio e funcionalidades de aplicações podem migrar para esse modelo
- O surgimento dos data apps?
- Essa hipótese da plataforma de dados ainda tem muitos pontos a serem discutidos
- De todo modo, estamos vendo um aumento de soluções SaaS verticais complexas, em uma camada horizontal sobre a plataforma de dados
- Empresas como Snowflake e Databricks devem se tornar peças estáveis desse stack de dados
- Por causa de ótimos produtos, equipes de vendas competentes, modelos de distribuição com pouco atrito etc.
- Porque, quando clientes constroem ou integram aplicações de dados sobre esses sistemas, deixa de ser racional migrar para outra coisa
- O fato de tantos produtos de infraestrutura de dados terem sido criados nos últimos anos e continuarem surgindo provavelmente tem relação com plataformas
- A hipótese da plataforma tem o poder de tornar a dinâmica competitiva mais previsível
- Em grande escala, plataformas têm muito valor
- Vendors de sistemas centrais de dados podem estar competindo agressivamente não pelo orçamento atual, mas para conquistar uma posição de plataforma no longo prazo
- Os altos valuations de empresas de ingestão & transformação de dados, ou dos segmentos de Metrics Layer e Reverse ETL, podem fazer mais sentido se forem vistos como partes centrais da nova plataforma de dados
- Olhando para frente
- Ainda estamos nos estágios iniciais de definição de plataformas de dados analíticas e operacionais, e as peças que compõem essas plataformas continuam mudando
- Por isso, é mais útil usar isso como uma metáfora do que como uma definição rígida
- Ainda assim, essa hipótese também é útil como ferramenta para filtrar signal de noise e para entender por que o mercado está se movendo dessa forma
- As equipes de dados agora têm mais ferramentas, recursos e momentum organizacional do que em qualquer outro momento desde a invenção do banco de dados
- É muito empolgante observar se a camada de aplicações vai evoluir sobre essa nova plataforma
4 comentários
Você também vai atualizar os vídeos das aulas no YouTube que postava antes..? ^^;
https://youtube.com/watch/…
Muito obrigado, como sempre~
Como também comecei a fazer vídeos e depois parei, acabei não conseguindo mais retomar, buá
Acho que vai ser difícil ter uma atualização em breve.
Ah, sim. Só o conteúdo que você havia postado antes já ajudou bastante.
Aproveito a oportunidade para agradecer.
Esta é a versão atualizada do texto Uma nova arquitetura para a infraestrutura de dados moderna.
Eu estava pensando em organizar tudo antes de publicar, mas vi que o Techit também já fez a tradução completa deste texto 2.0. Recomendo consultar os dois juntos.
A era da arquitetura de dados moderna e da nova arquitetura