25 pontos por xguru 2022-04-25 | 4 comentários | Compartilhar no WhatsApp

Atualização 2.0 do texto publicado em 2020

Changelog

  • 2 novas áreas que cresceram rapidamente
    • Ferramentas para dar suporte a processos e fluxos de trabalho de dados essenciais, como descoberta de dados, observabilidade e auditoria de modelos de ML
    • Novas aplicações, como data workspaces, reverse ETL e frameworks de aplicações de ML, que permitem que equipes de dados e usuários de negócio gerem valor a partir dos dados
  • Itens adicionados em BI
    • Metrics Layer: novas ferramentas puras como Transform e Supergrain. E o dbt se expandindo para essa área
    • Reverse ETL: Hightouch, Census
    • Data Workspace: Hex, Mode, Deepnote
    • Data Discovery & Observability: Monte Carlo e Big Eye captaram grandes volumes de investimento. Também há muitas empresas em estágio seed, como Select Star, Metaphor, Stemma, Secoda e Castor
  • Itens adicionados em Multimodal Data Processing
    • Abordagem para a arquitetura Lakehouse
    • Camada de armazenamento atualizada: Delta/Iceberg/Hudi estão sendo mais adotados e comercializados
    • Adoção crescente de stream processing: processamento de dados analíticos em tempo real. Materialize/Upsolver
  • Itens adicionados em AI & ML
    • Integração em torno de uma abordagem data-centric
      • Rotulagem de dados: Scale, Labelbox. Crescente interesse em Closed-loop Data Engine
      • Maior adoção de feature stores: Tecton, Feast, Databricks
      • Soluções de ML low-code: Continual, MindsDB, DataRobot, AutoML, Roboflow, Akkio
    • O uso de modelos pré-treinados está se tornando o padrão, especialmente em NLP. OpenAI & Hugging Face
    • MLOps está amadurecendo, e casos de uso e orçamentos voltados a ML Monitoring estão aumentando
    • Também há grande interesse em como integrar modelos de ML a aplicações. APIs prontas (OpenAI), bancos de dados vetoriais (Pinecone) etc.

Hipótese da plataforma de dados

  • No último ano, o stack de infraestrutura de dados viu uma rápida expansão de sistemas centrais e ferramentas de apoio, e para explicar por que isso está acontecendo, é apresentada a ideia de uma "plataforma de dados"
  • O que é uma plataforma?
    • No ecossistema de dados, "plataforma" é um termo sobrecarregado. É usado por equipes internas para se referir ao stack tecnológico inteiro, ou por vendors que vendem suítes de produtos conectadas de forma frouxa
    • Em software, uma plataforma é algo sobre o qual outros desenvolvedores podem construir
    • A característica que define uma plataforma, sob uma perspectiva industrial, é a "interdependência" entre um provedor de plataforma influente (tecnológica e economicamente) e um conjunto de desenvolvedores terceiros
  • O que é uma plataforma de dados?
    • Historicamente, o stack de dados não se encaixava na definição de plataforma
    • Havia interdependência entre vendors de ETL, data warehouse e reporting, mas o modelo de integração tendia a ser mais 1:1 do que 1:many. Em geral, serviços profissionais completavam essa lacuna
    • Com base em conversas com muitos profissionais de dados, isso pode estar começando a mudar
    • A hipótese da plataforma afirma que o "backend" do stack de dados (da ingestão ao armazenamento, processamento e transformação de dados) está começando a se integrar em alguns vendors baseados em nuvem
    • Como resultado, os conjuntos de dados dos clientes estão sendo reunidos em um conjunto padrão de sistemas, e os vendors estão tornando esses dados facilmente acessíveis a outros desenvolvedores (por meio de princípios de design fundamentais da Databricks, padrões SQL e APIs como o Snowpark da Snowflake)
    • Assim como desenvolvedores frontend se beneficiaram de integrações em ponto único, agora é possível acessar dados integrados sem se preocupar com a infraestrutura subjacente
    • Também começam a surgir sistemas empresariais tradicionais, como finanças e product analytics, sendo reconstruídos com arquitetura "warehouse-native"
    • Isso não significa que bancos de dados OLTP ou outras tecnologias críticas de backend vão desaparecer em breve
    • Mas a integração nativa com sistemas OLAP pode se tornar um componente central do desenvolvimento de aplicações
    • Cada vez mais lógica de negócio e funcionalidades de aplicações podem migrar para esse modelo
  • O surgimento dos data apps?
    • Essa hipótese da plataforma de dados ainda tem muitos pontos a serem discutidos
    • De todo modo, estamos vendo um aumento de soluções SaaS verticais complexas, em uma camada horizontal sobre a plataforma de dados
    • Empresas como Snowflake e Databricks devem se tornar peças estáveis desse stack de dados
      • Por causa de ótimos produtos, equipes de vendas competentes, modelos de distribuição com pouco atrito etc.
      • Porque, quando clientes constroem ou integram aplicações de dados sobre esses sistemas, deixa de ser racional migrar para outra coisa
    • O fato de tantos produtos de infraestrutura de dados terem sido criados nos últimos anos e continuarem surgindo provavelmente tem relação com plataformas
    • A hipótese da plataforma tem o poder de tornar a dinâmica competitiva mais previsível
      • Em grande escala, plataformas têm muito valor
      • Vendors de sistemas centrais de dados podem estar competindo agressivamente não pelo orçamento atual, mas para conquistar uma posição de plataforma no longo prazo
    • Os altos valuations de empresas de ingestão & transformação de dados, ou dos segmentos de Metrics Layer e Reverse ETL, podem fazer mais sentido se forem vistos como partes centrais da nova plataforma de dados
  • Olhando para frente
    • Ainda estamos nos estágios iniciais de definição de plataformas de dados analíticas e operacionais, e as peças que compõem essas plataformas continuam mudando
    • Por isso, é mais útil usar isso como uma metáfora do que como uma definição rígida
    • Ainda assim, essa hipótese também é útil como ferramenta para filtrar signal de noise e para entender por que o mercado está se movendo dessa forma
    • As equipes de dados agora têm mais ferramentas, recursos e momentum organizacional do que em qualquer outro momento desde a invenção do banco de dados
    • É muito empolgante observar se a camada de aplicações vai evoluir sobre essa nova plataforma

4 comentários

 
sungwoo 2023-01-10

Você também vai atualizar os vídeos das aulas no YouTube que postava antes..? ^^;
https://youtube.com/watch/…

Muito obrigado, como sempre~

 
xguru 2023-01-10

Como também comecei a fazer vídeos e depois parei, acabei não conseguindo mais retomar, buá
Acho que vai ser difícil ter uma atualização em breve.

 
sungwoo 2023-01-10

Ah, sim. Só o conteúdo que você havia postado antes já ajudou bastante.
Aproveito a oportunidade para agradecer.

 
xguru 2022-04-25

Esta é a versão atualizada do texto Uma nova arquitetura para a infraestrutura de dados moderna.

Eu estava pensando em organizar tudo antes de publicar, mas vi que o Techit também já fez a tradução completa deste texto 2.0. Recomendo consultar os dois juntos.
A era da arquitetura de dados moderna e da nova arquitetura