AI em 2021 e as tendências mais recentes

(mattturck.com)

21 pontos por xguru 2021-11-01 | 3 comentários | Compartilhar no WhatsApp

O Data & AI Landscape de 2021 resumido em uma única imagem, com explicações detalhadas

Perspectiva macro: entendendo a complexidade do ecossistema
Captação, IPOs e M&A
The 2021 Landscape
Principais tendências de infraestrutura de dados

→ Data Mesh

→ Um ano agitado para DataOps

→ Agora é em tempo real

→ Metrics Store

→ Reverse ETL

→ Data Sharing

Principais tendências em analytics & Enterprise AI

→ Feature Store

→ A ascensão de ModelOps

→ Geração de conteúdo por AI

→ A evolução da stack de AI da China

"Perspectiva macro: entendendo a complexidade do ecossistema"

Por que empresas de dados & AI continuam surgindo, e até quando isso vai continuar?
A tendência fundamental é que "toda empresa está se tornando não apenas uma empresa de software, mas uma empresa de dados"
Em muitas organizações, "dados" significavam dados transacionais armazenados em um RDBMS e alguns dashboards para analisar o que aconteceu nos últimos meses
Mas agora as empresas estão avançando para um mundo em que "dados e inteligência artificial" ficam embutidos em "processos internos e aplicações externas" para fins de "análise e operação"
Essa evolução fundamental foi possibilitada por avanços impressionantes nas tecnologias de base — especialmente pela relação simbiótica (Symbiotic Relationship) entre "infraestrutura de dados e machine learning/AI"

→ As duas áreas estão colaborando cada vez mais de perto

→ O primeiro marco foi a "era do big data" no início dos anos 2010

→ Ao perceberem que aplicar esses big data a algoritmos antigos de AI com mais de uma década (deep learning) podia gerar resultados impressionantes, isso impulsionou o entusiasmo em torno de AI

→ Como resultado, AI se tornou um grande motor para o desenvolvimento da infraestrutura de dados

→ Se todas as aplicações passarem a ser construídas com base em AI, será necessária uma infraestrutura de dados melhor

Até chegar a 2021, os termos Big Data e AI passaram por altos e baixos, e hoje se fala muito em "Automation", mas no fundo tudo isso faz parte da mesma megatendência
A aceleração atual na área de Data/AI pode ser rastreada até o crescimento dos cloud data warehouses nos últimos anos
O data warehouse resolve uma questão muito básica, mas essencial da infraestrutura de dados: "onde armazenar"

→ Pode parecer que esse problema já deveria ter sido resolvido, mais de 15 anos depois do início da revolução do Big Data, mas não foi bem assim

→ Olhando para trás, o sucesso inicial do Hadoop foi, em certa medida, ilusório

→ Foi importante para transmitir a ideia de que era possível extrair valor real de enormes volumes de dados, mas, por causa da complexidade técnica, acabou sendo usado por poucas empresas e não conseguiu penetrar no mercado

Os cloud data warehouses atuais (Snowflake, Redshift, BigQuery) e o lakehouse (Databricks)

→ custam menos

→ não exigem uma quantidade enorme de pessoal técnico

→ e oferecem a capacidade de armazenar grandes volumes de dados de forma útil

Em outras palavras, só agora passamos realmente a conseguir armazenar e processar Big Data. Isso é muito importante e ficou provado que foi um major unlock para outras áreas de Data/AI

→ Primeiro, os data warehouses aumentam o tamanho de mercado de todo o ecossistema de dados e AI. Com facilidade de uso e precificação baseada em consumo, o data warehouse se tornou a gateway para que toda empresa vire uma empresa de dados

→ Segundo, o data warehouse viabiliza o uso do ecossistema ao seu redor, incluindo várias ferramentas.

⇨ ETL, ELT, reverse ETL, ferramentas de qualidade de dados centradas no warehouse, metrics store, augmented analytics etc.

⇨ "Modern Data Stack" ( https://pt.news.hada.io/topic?id=3055 consulta )

⇨ O surgimento da modern data stack deu origem a muitas startups e concentrou investimentos (DBT, Fivetran..)

→ Terceiro, como o data warehouse resolve a camada mais básica de storage, as empresas podem se concentrar em projetos de maior valor nas camadas superiores das necessidades de dados

⇨ Agora que os dados já estão armazenados, fica mais fácil focar em tarefas como processamento em tempo real, augmented analytics e machine learning

⇨ Isso, por sua vez, aumenta a demanda de mercado por todos os tipos de ferramentas e plataformas de Data/AI

⇨ A maior demanda dos clientes cria um flywheel que gera mais inovação entre as empresas de dados/ML

"O data warehouse é um sinal fundamental de toda a indústria de dados, e, à medida que ele cresce, o resto cresce junto"

A boa notícia para a indústria de Data/AI é que data warehouses e lakehouses estão crescendo de forma extremamente rápida e em grande escala

→ A Snowflake registrou crescimento de 103% YoY no anúncio do Q2 e mostrou o número impressionante de 169% de Net Revenue Retention (ou seja, os clientes existentes estão usando cada vez mais)

→ A expectativa é de receita de 12 trilhões de won ($10B) em 2028

Há quem diga que, no futuro, toda empresa terá pelo menos um cloud data warehouse

"The Titanic Shock: Snowflake vs Databricks"

A Snowflake é, recentemente, a principal referência do setor de dados. Seu IPO de setembro de 2020 foi o maior da história dos IPOs de software. No momento em que este texto foi escrito, era uma empresa de $95B
A Databricks surgiu como uma nova concorrente dentro da indústria. Em 31/8, concluiu uma rodada de $1.6B com valuation de $38B
Até recentemente, as duas empresas pertenciam a segmentos bem diferentes do mercado (na verdade, durante um bom tempo foram parceiras próximas)
A Snowflake, como cloud data warehouse, é um banco de dados para armazenar e processar grandes volumes de dados estruturados (que podem ser bem armazenados em linhas e colunas)

→ As empresas a utilizam conectando ferramentas de BI para responder perguntas sobre desempenho passado e atual ("qual região cresceu mais rápido no último trimestre?")

→ Assim como outros bancos de dados, usa SQL e por isso tem centenas de milhões de usuários em potencial

A Databricks veio de outro canto do mundo dos dados

→ Começou em 2013 comercializando o Spark, que era open source

→ Em geral, foi criada para processar dados não estruturados (texto, áudio, vídeo)

→ Os usuários do Spark a utilizavam para construir um "Data Lake", onde qualquer tipo de dado pode ser colocado sem se preocupar com sua estrutura ou organização

→ O principal uso do data lake é treinar aplicações de ML/AI para que as empresas consigam responder perguntas sobre o futuro ("qual cliente tem maior probabilidade de comprar no próximo trimestre?"), ou seja, análise preditiva

→ A Databricks criou o Delta para dar suporte ao data lake e o ML Flow para dar suporte a ML/AI

Porém, recentemente, as duas empresas vêm convergindo uma em direção à outra

→ A Databricks adicionou funções de DW ao data lake para que analistas executem consultas SQL padrão e integrem ferramentas como Tableau ou MS PowerBI. Com isso, criou o que chama de "Lakehouse"

→ A Databricks está tornando o data lake mais parecido com um data warehouse, enquanto a Snowflake publicou em preview um recurso de armazenamento de dados não estruturados (áudio, vídeo, PDF, imagens etc.) para fazer o data warehouse parecer um data lake

→ A Databricks está adicionando BI às capacidades de AI, e a Snowflake está adicionando AI às funcionalidades compatíveis com BI

No fim, tanto Snowflake quanto Databricks querem se tornar o "The center of all things data"

→ Um único repositório para armazenar todos os dados. Armazena tanto dados estruturados quanto não estruturados e realiza todo tipo de análise, do histórico até previsões futuras

Claro que há muitos concorrentes (hiperescaladores de nuvem como AWS e GCP)
Tanto Snowflake quanto Databricks são ao mesmo tempo amigos e inimigos dos fornecedores de nuvem (Friend and Foe)

→ A Snowflake, que cresceu com base na AWS, agora está se expandindo para outras nuvens

→ A Databricks tem uma parceria forte com a Microsoft, mas também ajuda a evitar lock-in de fornecedor por meio de recursos multicloud

→ Nos últimos anos, críticos vêm apontando que os modelos de negócio de Snowflake e Databricks têm suas margens influenciadas pela precificação das empresas de nuvem

Nos próximos cinco anos, observar essa dança entre provedores de nuvem e gigantes dos dados será uma história decisiva

"Bundling, Unbundling, Consolidation?"

Considerando a ascensão de Snowflake e Databricks, será este o começo da onda de consolidação que o setor aguardava?
Na área de dados / AI, “a consolidação funcional está acontecendo”
Mas todos estão na mesma direção. Ninguém quer continuar sendo uma empresa de produto único; todos querem empacotar mais coisas e ter mais funcionalidades

→ A Confluent, que abriu capital em 2021/6, também busca ir além do campo de dados em tempo real e “unificar o processamento de dados em movimento e dados estáticos”

→ A Dataiku se concentra em empacotar em uma única plataforma desde a preparação de dados até DataOps, MLOps, visualização e AI explainability

O surgimento da modern data stack é outro exemplo de consolidação funcional

→ No centro disso está uma verdadeira “aliança” entre empresas (em sua maioria startups) que conectam da extração de dados ao data warehouse e ao BI

Para os usuários dessas tecnologias, bundling e convergência serão muito bem-vindos

→ À medida que amadurece, o setor de dados precisa evoluir além de divisões tecnológicas como “transacional vs. analítico”, “processamento em batch vs. tempo real” e “BI vs AI”

As empresas continuarão trabalhando com vários fornecedores/plataformas/ferramentas para montar a combinação mais adequada às suas necessidades
A razão central é que “o ritmo da inovação é explosivo demais”

→ Novas startups continuam surgindo, grandes empresas de tecnologia criam ferramentas internas de dados/AI e as transformam em open source, e toda semana aparece algo novo para cada tecnologia/produto existente

Fornecedores de big data warehouse e data lake estão pressionando pela centralização de todos os dados, mas novos frameworks como “Data Mesh” também estão surgindo

→ Uma abordagem distribuída em que diferentes equipes assumem suas próprias responsabilidades

Além da consolidação funcional, é difícil saber se haverá M&A

→ Um dos rumores que as pessoas gostam é que “a Microsoft quer adquirir a Databricks”

"Financings, IPOs, M&A: A Crazy Market"

Quem acompanha o mercado de startups sabe: o mercado enlouqueceu
Assim como no ano passado, neste ano também dados e ML/AI são as categorias de investimento mais quentes
Empresas com listagem planejada

→ UiPath : empresa de RPA e automação com AI

→ Confluent : Kafka

→ C3.ai : plataforma de AI

→ Couchbase : banco de dados NoSQL

→ SentinelOne : plataforma automatizada de segurança de endpoint com AI

→ TuSimple : caminhões autônomos

→ Zymergen : biofabricação

→ Recursion : empresa de desenvolvimento de medicamentos orientado por AI

→ Darktrace : cibersegurança baseada em AI

Com o aumento de SPACs, empresas de tecnologia na linha de frente do mercado de AI devem se beneficiar (direção autônoma, biotecnologia etc.)

"The 2021 MAD Landscape & What’s New this Year"

No mapa deste ano, “Analytics and Machine Intelligence” foi dividido em “Analytics” e “Machine Learning & Artificial Intelligence”
Novas categorias adicionadas

→ Infrastructure

→ Reverse ETL : produtos que enviam dados de volta do data warehouse para aplicações SaaS

→ Data Observability : componente de DataOps focado em resolver problemas de qualidade de dados com base em lineage de dados

→ Privacy & Security : a privacidade de dados está se tornando cada vez mais importante, e muitas startups estão surgindo nessa categoria

→ Analytics

→ Data Catalogs & Discovery : a categoria mais movimentada dos últimos 12 meses. Permite que usuários encontrem e gerenciem os datasets que desejam

→ Augmented Analytics : ferramentas de BI aproveitam os avanços em NLG/NLP para gerar insights automaticamente e tornar os dados acessíveis a públicos não técnicos

→ Metrics Stores : repositório central para métricas-chave de negócio. Um novo entrante na data stack

→ Query Engines

→ Machine Learning and AI

→ A categoria de MLOps foi subdividida em: Model Building, Feature Stores, Deployment and Production

→ Open Source

→ Adicionados Format, Orchestration, Data Quality & Observability

Antes havia muitas startups em série C ou superior, ou empresas já listadas, mas neste ano foram adicionadas muitas empresas em estágio seed e série A

"Principais tendências da infraestrutura de dados"

2020

→ Modern Data Stack entrou no mainstream

→ ETL vs ELT

→ Automação da engenharia de dados?

→ A ascensão do analista de dados

→ Data lake e data warehouse vão se fundir?

→ Complexidade ainda não resolvida

2021

→ Data Mesh

→ Um ano corrido para DataOps

→ Agora é tempo real

→ Metrics Stores

→ Reverse ETL

→ Data Sharing

[Data Mesh]

Originado de “How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh”, defendido por Zhamak Dehghani em 2019
Ganhou muito momentum entre 2020 e 2021
O conceito de data mesh é, em grande parte, uma ideia organizacional
Até agora, a forma padrão de construir infraestrutura e equipes de dados era a centralização. Uma grande plataforma gerenciada por um único time de dados atendia às necessidades do negócio
Há muitas vantagens, mas também surgem problemas como gargalos
A ideia é, por meio da descentralização, criar equipes de dados independentes responsáveis por seus próprios domínios e fornecer dados “como produto” para outras pessoas dentro da organização

→ É semelhante ao conceito de microsserviços de que se fala em engenharia de software

O termo tem vários significados, mas

→ se isso se tornar viável, será uma grande oportunidade para startups que criam ferramentas mission-critical para uma data stack distribuída

A Starburst, um SQL Query Engine que faz consultas e análises unificadas em vários repositórios, fez rebranding de si mesma como “motor analítico para data mesh”
Mecanismos de orquestração que gerenciam pipelines complexos (como Airflow, Prefect e Dagster) tendem a se tornar ainda mais mission-critical
Rastrear dados entre armazenamentos e pipelines está se tornando ainda mais essencial do ponto de vista de compliance e governança, reforçando a necessidade de Data Lineage (OpenLineage, DataKin)

[Um ano agitado para DataOps]

O conceito de DataOps ficou no ar por alguns anos e recentemente passou a ganhar tração de fato
Existem várias definições

→ DevOps do mundo dos dados

→ Tudo o que é necessário para construir e manter pipelines de dados, encontrar os datasets corretos por meio de catálogos de dados e permitir que produtores e consumidores de dados realizem o trabalho de que precisam

De qualquer forma, assim como DevOps, é uma "combinação de metodologia, processos, pessoas, plataforma e ferramentas"
Em um contexto mais amplo, "ferramentas e práticas de engenharia de dados" ainda estão muito atrás do nível de automação da engenharia de software
Quanto mais importantes dados/IA se tornam, mais são necessárias ferramentas e práticas melhores
Todos querem se tornar o "DataDog do mundo dos dados" (na prática, o DataDog também é usado em DataOps, mas sua base é principalmente de engenharia de software)
Há várias subpartes, como Data observability, Data Lineage, Data Quality, Data Reliability Engineering e Data Access & Governance

[Agora é em tempo real]

Dados "em tempo real" ou de "streaming" são dados processados e consumidos logo após serem gerados
É o oposto de "batch", o paradigma dominante da infraestrutura de dados até agora
O processamento de dados em tempo real já era um tema quente desde o início da era do big data, 10 a 15 anos atrás

→ Em especial, a velocidade de processamento foi um fator central para o sucesso do Spark em comparação ao Hadoop MR

Mas, embora por alguns anos tenha sido um mercado "prestes a explodir", isso não aconteceu
O enorme sucesso do IPO da Confluent provou que os céticos estavam errados
E, indo além da Confluent, todo o ecossistema de dados em tempo real acelerou
Em particular, a área de "análise em tempo real" mostrou muita atividade

→ O ClickHouse, criado pela russa Yandex, fundou uma empresa nos EUA e recebeu investimento de $50M

→ A Imply, plataforma de análise em tempo real baseada no open source Druid, recebeu $70M em investimento

[Metrics Stores]

Nos últimos anos, os dados corporativos e a frequência/complexidade de uso desses dados aumentaram
Com o aumento da complexidade, também cresceram os problemas causados por inconsistências nos dados
Métricas podem ficar desalinhadas mesmo com pequenas mudanças em dimensões/definições e outros fatores
Dados só são úteis quando são exatos e confiáveis para as equipes que os utilizam
A tentativa de centralizar métricas levou ao desenvolvimento de soluções próprias como o Minerva, do AirBnB: "Define Once, Use Anywhere"
Padronizar as definições das principais métricas de negócio e de todas as dimensões, e fornecer aos stakeholders conjuntos de dados corretos e analisáveis com base nessas definições
Construir confiança nos dados com base em definições centralizadas de métricas e oferecer a qualquer pessoa acesso multifuncional a essas métricas
O metrics store

→ Fica sobre o data warehouse e informa dados a todas as aplicações downstream, incluindo plataformas de BI, ferramentas de analytics e data science e aplicações operacionais

→ Mantém a consistência dos dados, de modo que, quando a lógica de negócio muda, isso é preenchido automaticamente

Há startups como Transform, Trace e Supergrain

[Reverse ETL]

No moderno data stack, Reverse ETL se tornou uma categoria
Move dados de volta do data warehouse para aplicações de negócio como CRM, sistemas de automação de marketing e plataformas de suporte ao cliente
A ideia é permitir que ferramentas operacionais reais aproveitem dados atualizados e enriquecidos por outras aplicações de negócio
Muitas ferramentas de Reverse ETL receberam funding: Census, Rudderstack, Grouparoo, Hightouch, Headsup, Polytomic

[Data Sharing]

Cresce o compartilhamento e a colaboração de dados não só dentro da empresa, mas em toda a organização
Há interesse em compartilhar dados com ecossistemas de fornecedores, parceiros e clientes para visibilidade da cadeia de suprimentos, treinamento de modelos de machine learning e compartilhamento de planos de go-to-market, entre outros
O compartilhamento de dados entre organizações é um tema central para fornecedores de "data cloud"
Em maio de 2021, o Google lançou o Analytics Hub. Ele permite compartilhar dados/insights/dashboards/modelos de machine learning dentro e fora da organização. Também revelou o DataShare para serviços financeiros
No mesmo dia do Google, a Databricks revelou o Delta Sharing, um protocolo open source para compartilhamento de dados entre organizações
Em junho de 2021, a Snowflake revelou o recurso Secure Data Sharing por meio do seu data marketplace
Há startups como Habr e Crossbeam

"Principais tendências de ML/AI"

2020

Boom time for data science and machine learning platforms (DSML)
ML getting deployed and embedded
The Year of NLP

2021

Feature Stores
The rise of ModelOps
AI content generation
The continued emergence of a separate Chinese AI stack
A pesquisa em inteligência artificial continua avançando em ritmo acelerado

→ DeepMind Alphafold, OpenAI GTP-3/DALL-E/CLIP

[Feature Stores]

Desde que a Uber apresentou a ideia em 2017, isso vem se tornando cada vez mais comum no stack de machine learning

→ Empresas como Tecton, Rasgo, Logical Clocks e Kaskada fizeram rodadas de investimento

Em machine learning, features (variáveis ou atributos) são propriedades ou características mensuráveis individualmente e são representadas como colunas em snippets de dados

→ Modelos de machine learning podem usar de uma única feature até milhões delas

Com o uso de modelos e pipelines cada vez mais complexos, isso passou a ser feito de forma cada vez mais ad hoc
Engenheiros e cientistas de dados frequentemente gastam muito tempo reextraindo features a partir de dados brutos
A lacuna entre ambientes de produção e de experimentação pode causar inconsistências no desempenho ou no comportamento do modelo
Como as organizações também se preocupam com governança e reprodutibilidade de modelos de machine learning, o isolamento em silos de features torna tudo ainda mais difícil na prática
O feature store promove colaboração e elimina esses silos
Ele reduz a complexidade ao fornecer uma única fonte de verdade tanto para treinamento quanto para produção, além de padronizar e reutilizar features
Armazena features selecionadas dentro da organização, executa pipelines de dados que transformam dados brutos em valores de feature e oferece acesso rápido por API

[The Rise of ModelOps]

Muitas empresas perceberam que levar modelos da fase experimental para produção é difícil e que os modelos em uso exigem monitoramento contínuo e retreinamento
MLOps aplica as melhores práticas de DevOps. Ele simplifica o desenvolvimento e a implantação rápidos e contínuos de modelos em escala
ModelOps é um superconjunto de MLOps. Seu objetivo é operar mais rapidamente todos os modelos de IA, incluindo ML, em todas as etapas, do treinamento à produção
ModelOps abrange tanto ferramentas quanto processos, integra processos, padroniza a orquestração de modelos e fornece um repositório centralizado para todos os modelos, junto com recursos abrangentes de governança
Um ModelOps bem implementado fornece um sistema unificado para implantar/monitorar e gerenciar todos os modelos, reduzindo riscos e aumentando a compliance

[AI Content Generation]

A IA amadureceu bastante nos últimos anos e passou a ser usada para criar conteúdo em todos os tipos de mídia, incluindo texto, imagem, código e vídeo
Divulgação do OpenAI GPT-3. O GitHub apresentou o GitHub Copilot usando o OpenAI Codex
Embora a OpenAI esteja focada em modelos centrados no inglês, há muitas outras empresas trabalhando em outros idiomas

→ Aleph Alpha, da Alemanha, AI21 Labs, PanGu, da Huawei, HyperCLOVA, da Naver

[O surgimento contínuo de uma pilha de IA chinesa separada]

A China continua avançando como uma potência global de IA, com seu próprio mercado, o maior produtor de dados do mundo
O TikTok, um dos melhores algoritmos de recomendação, teve sucesso no Ocidente, marcando a primeira disseminação real de tecnologia de consumo de IA chinesa
Com a China declarando a hegemonia em IA até 2030 e recebendo apoio financeiro, começou a surgir uma pilha própria e separada no país, que até então ainda utilizava ferramentas ocidentais

3 comentários

ehanmire 2021-11-11

Tenho obtido bons insights de várias frases e refletido bastante.

Obrigado~

Por um momento, pensei que processos e dados são como ossos e sangue,

que o sangue se reúne em algum lugar, os vasos sanguíneos se formam e então surge um tecido,

mas de repente me veio à cabeça uma analogia estranha:

será que não é do movimento que uma empresa ganha dinheiro?

sungwoo 2021-11-08

Muito obrigado por sempre organizar informações de altíssimo nível de forma tão clara.

xguru 2021-11-07

The 2020 Data & AI Landscape https://pt.news.hada.io/topic?id=2979