→ Um único repositório para armazenar todos os dados. Armazena tanto dados estruturados quanto não estruturados e realiza todo tipo de análise, do histórico até previsões futuras<br />
- Claro que há muitos concorrentes (hiperescaladores de nuvem como AWS e GCP)<br />
- Tanto Snowflake quanto Databricks são ao mesmo tempo amigos e inimigos dos fornecedores de nuvem (Friend and Foe)<br /> → A Snowflake, que cresceu com base na AWS, agora está se expandindo para outras nuvens <br /> → A Databricks tem uma parceria forte com a Microsoft, mas também ajuda a evitar lock-in de fornecedor por meio de recursos multicloud <br /> → Nos últimos anos, críticos vêm apontando que os modelos de negócio de Snowflake e Databricks têm suas margens influenciadas pela precificação das empresas de nuvem <br />
- Nos próximos cinco anos, observar essa dança entre provedores de nuvem e gigantes dos dados será uma história decisiva <br /> <br />
"Bundling, Unbundling, Consolidation?"<br />
- Considerando a ascensão de Snowflake e Databricks, será este o começo da onda de consolidação que o setor aguardava?<br />
- Na área de dados / AI, “a consolidação funcional está acontecendo”<br />
- Mas todos estão na mesma direção. Ninguém quer continuar sendo uma empresa de produto único; todos querem empacotar mais coisas e ter mais funcionalidades<br /> → A Confluent, que abriu capital em 2021/6, também busca ir além do campo de dados em tempo real e “unificar o processamento de dados em movimento e dados estáticos” <br /> → A Dataiku se concentra em empacotar em uma única plataforma desde a preparação de dados até DataOps, MLOps, visualização e AI explainability <br />
- O surgimento da modern data stack é outro exemplo de consolidação funcional <br /> → No centro disso está uma verdadeira “aliança” entre empresas (em sua maioria startups) que conectam da extração de dados ao data warehouse e ao BI <br />
- Para os usuários dessas tecnologias, bundling e convergência serão muito bem-vindos<br /> → À medida que amadurece, o setor de dados precisa evoluir além de divisões tecnológicas como “transacional vs. analítico”, “processamento em batch vs. tempo real” e “BI vs AI” <br />
- As empresas continuarão trabalhando com vários fornecedores/plataformas/ferramentas para montar a combinação mais adequada às suas necessidades<br /> <br />
- A razão central é que “o ritmo da inovação é explosivo demais”<br /> → Novas startups continuam surgindo, grandes empresas de tecnologia criam ferramentas internas de dados/AI e as transformam em open source, e toda semana aparece algo novo para cada tecnologia/produto existente <br /> <br />
- Fornecedores de big data warehouse e data lake estão pressionando pela centralização de todos os dados, mas novos frameworks como “Data Mesh” também estão surgindo <br /> → Uma abordagem distribuída em que diferentes equipes assumem suas próprias responsabilidades <br /> <br />
- Além da consolidação funcional, é difícil saber se haverá M&A <br /> → Um dos rumores que as pessoas gostam é que “a Microsoft quer adquirir a Databricks”<br /> <br />
"Financings, IPOs, M&A: A Crazy Market"<br />
- Quem acompanha o mercado de startups sabe: o mercado enlouqueceu <br />
- Assim como no ano passado, neste ano também dados e ML/AI são as categorias de investimento mais quentes<br />
- Empresas com listagem planejada<br /> → UiPath : empresa de RPA e automação com AI <br /> → Confluent : Kafka <br /> → C3.ai : plataforma de AI <br /> → Couchbase : banco de dados NoSQL <br /> → SentinelOne : plataforma automatizada de segurança de endpoint com AI <br /> → TuSimple : caminhões autônomos <br /> → Zymergen : biofabricação <br /> → Recursion : empresa de desenvolvimento de medicamentos orientado por AI<br /> → Darktrace : cibersegurança baseada em AI<br />
- Com o aumento de SPACs, empresas de tecnologia na linha de frente do mercado de AI devem se beneficiar (direção autônoma, biotecnologia etc.)<br /> <br />
"The 2021 MAD Landscape & What’s New this Year"<br />
- No mapa deste ano, “Analytics and Machine Intelligence” foi dividido em “Analytics” e “Machine Learning & Artificial Intelligence” <br />
- Novas categorias adicionadas <br /> → Infrastructure<br /> → Reverse ETL : produtos que enviam dados de volta do data warehouse para aplicações SaaS <br /> → Data Observability : componente de DataOps focado em resolver problemas de qualidade de dados com base em lineage de dados <br /> → Privacy & Security : a privacidade de dados está se tornando cada vez mais importante, e muitas startups estão surgindo nessa categoria <br /> → Analytics<br /> → Data Catalogs & Discovery : a categoria mais movimentada dos últimos 12 meses. Permite que usuários encontrem e gerenciem os datasets que desejam <br /> → Augmented Analytics : ferramentas de BI aproveitam os avanços em NLG/NLP para gerar insights automaticamente e tornar os dados acessíveis a públicos não técnicos <br /> → Metrics Stores : repositório central para métricas-chave de negócio. Um novo entrante na data stack<br /> → Query Engines <br /> → Machine Learning and AI <br /> → A categoria de MLOps foi subdividida em: Model Building, Feature Stores, Deployment and Production <br /> → Open Source <br /> → Adicionados Format, Orchestration, Data Quality & Observability <br />
- Antes havia muitas startups em série C ou superior, ou empresas já listadas, mas neste ano foram adicionadas muitas empresas em estágio seed e série A <br /> <br />
"Principais tendências da infraestrutura de dados"<br />
-
2020 <br /> → Modern Data Stack entrou no mainstream <br /> → ETL vs ELT <br /> → Automação da engenharia de dados?<br /> → A ascensão do analista de dados <br /> → Data lake e data warehouse vão se fundir?<br /> → Complexidade ainda não resolvida <br /> <br />
-
2021 <br /> → Data Mesh <br /> → Um ano corrido para DataOps <br /> → Agora é tempo real<br /> → Metrics Stores <br /> → Reverse ETL <br /> → Data Sharing <br /> <br /> [Data Mesh]<br />
-
Originado de “How to Move Beyond a Monolithic Data Lake to a Distributed Data Mesh”, defendido por Zhamak Dehghani em 2019 <br />
-
Ganhou muito momentum entre 2020 e 2021<br />
-
O conceito de data mesh é, em grande parte, uma ideia organizacional<br />
-
Até agora, a forma padrão de construir infraestrutura e equipes de dados era a centralização. Uma grande plataforma gerenciada por um único time de dados atendia às necessidades do negócio <br />
-
Há muitas vantagens, mas também surgem problemas como gargalos <br />
-
A ideia é, por meio da descentralização, criar equipes de dados independentes responsáveis por seus próprios domínios e fornecer dados “como produto” para outras pessoas dentro da organização <br /> → É semelhante ao conceito de microsserviços de que se fala em engenharia de software <br />
-
O termo tem vários significados, mas <br /> → se isso se tornar viável, será uma grande oportunidade para startups que criam ferramentas mission-critical para uma data stack distribuída<br />
-
A Starburst, um SQL Query Engine que faz consultas e análises unificadas em vários repositórios, fez rebranding de si mesma como “motor analítico para data mesh” <br />
-
Mecanismos de orquestração que gerenciam pipelines complexos (como Airflow, Prefect e Dagster) tendem a se tornar ainda mais mission-critical <br />
-
Rastrear dados entre armazenamentos e pipelines está se tornando ainda mais essencial do ponto de vista de compliance e governança, reforçando a necessidade de Data Lineage (OpenLineage, DataKin)<br /> <br /> [Um ano agitado para DataOps]<br />
-
O conceito de DataOps ficou no ar por alguns anos e recentemente passou a ganhar tração de fato <br />
-
Existem várias definições <br /> → DevOps do mundo dos dados <br /> → Tudo o que é necessário para construir e manter pipelines de dados, encontrar os datasets corretos por meio de catálogos de dados e permitir que produtores e consumidores de dados realizem o trabalho de que precisam <br />
-
De qualquer forma, assim como DevOps, é uma "combinação de metodologia, processos, pessoas, plataforma e ferramentas"<br />
-
Em um contexto mais amplo, "ferramentas e práticas de engenharia de dados" ainda estão muito atrás do nível de automação da engenharia de software<br />
-
Quanto mais importantes dados/IA se tornam, mais são necessárias ferramentas e práticas melhores <br />
-
Todos querem se tornar o "DataDog do mundo dos dados" (na prática, o DataDog também é usado em DataOps, mas sua base é principalmente de engenharia de software)<br />
-
Há várias subpartes, como Data observability, Data Lineage, Data Quality, Data Reliability Engineering e Data Access & Governance<br /> <br /> [Agora é em tempo real]<br />
-
Dados "em tempo real" ou de "streaming" são dados processados e consumidos logo após serem gerados <br />
-
É o oposto de "batch", o paradigma dominante da infraestrutura de dados até agora <br />
-
O processamento de dados em tempo real já era um tema quente desde o início da era do big data, 10 a 15 anos atrás<br /> → Em especial, a velocidade de processamento foi um fator central para o sucesso do Spark em comparação ao Hadoop MR <br />
-
Mas, embora por alguns anos tenha sido um mercado "prestes a explodir", isso não aconteceu <br />
-
O enorme sucesso do IPO da Confluent provou que os céticos estavam errados <br />
-
E, indo além da Confluent, todo o ecossistema de dados em tempo real acelerou <br />
-
Em particular, a área de "análise em tempo real" mostrou muita atividade <br /> → O ClickHouse, criado pela russa Yandex, fundou uma empresa nos EUA e recebeu investimento de $50M <br /> → A Imply, plataforma de análise em tempo real baseada no open source Druid, recebeu $70M em investimento <br /> <br /> [Metrics Stores]<br />
-
Nos últimos anos, os dados corporativos e a frequência/complexidade de uso desses dados aumentaram <br />
-
Com o aumento da complexidade, também cresceram os problemas causados por inconsistências nos dados <br />
-
Métricas podem ficar desalinhadas mesmo com pequenas mudanças em dimensões/definições e outros fatores<br />
-
Dados só são úteis quando são exatos e confiáveis para as equipes que os utilizam <br />
-
A tentativa de centralizar métricas levou ao desenvolvimento de soluções próprias como o Minerva, do AirBnB: "Define Once, Use Anywhere"<br />
-
Padronizar as definições das principais métricas de negócio e de todas as dimensões, e fornecer aos stakeholders conjuntos de dados corretos e analisáveis com base nessas definições <br />
-
Construir confiança nos dados com base em definições centralizadas de métricas e oferecer a qualquer pessoa acesso multifuncional a essas métricas <br />
-
O metrics store <br /> → Fica sobre o data warehouse e informa dados a todas as aplicações downstream, incluindo plataformas de BI, ferramentas de analytics e data science e aplicações operacionais <br /> → Mantém a consistência dos dados, de modo que, quando a lógica de negócio muda, isso é preenchido automaticamente <br />
-
Há startups como Transform, Trace e Supergrain <br /> <br /> [Reverse ETL]<br />
-
No moderno data stack, Reverse ETL se tornou uma categoria <br />
-
Move dados de volta do data warehouse para aplicações de negócio como CRM, sistemas de automação de marketing e plataformas de suporte ao cliente <br />
-
A ideia é permitir que ferramentas operacionais reais aproveitem dados atualizados e enriquecidos por outras aplicações de negócio <br />
-
Muitas ferramentas de Reverse ETL receberam funding: Census, Rudderstack, Grouparoo, Hightouch, Headsup, Polytomic <br /> <br /> [Data Sharing]<br />
-
Cresce o compartilhamento e a colaboração de dados não só dentro da empresa, mas em toda a organização <br />
-
Há interesse em compartilhar dados com ecossistemas de fornecedores, parceiros e clientes para visibilidade da cadeia de suprimentos, treinamento de modelos de machine learning e compartilhamento de planos de go-to-market, entre outros <br />
-
O compartilhamento de dados entre organizações é um tema central para fornecedores de "data cloud" <br />
-
Em maio de 2021, o Google lançou o Analytics Hub. Ele permite compartilhar dados/insights/dashboards/modelos de machine learning dentro e fora da organização. Também revelou o DataShare para serviços financeiros <br />
-
No mesmo dia do Google, a Databricks revelou o Delta Sharing, um protocolo open source para compartilhamento de dados entre organizações <br />
-
Em junho de 2021, a Snowflake revelou o recurso Secure Data Sharing por meio do seu data marketplace <br />
-
Há startups como Habr e Crossbeam </p><p>## "Principais tendências de ML/AI"<br /> 2020<br />
-
Boom time for data science and machine learning platforms (DSML)<br />
-
ML getting deployed and embedded<br />
-
The Year of NLP<br /> <br /> 2021<br />
-
Feature Stores<br />
-
The rise of ModelOps<br />
-
AI content generation<br />
-
The continued emergence of a separate Chinese AI stack<br /> <br />
-
A pesquisa em inteligência artificial continua avançando em ritmo acelerado<br /> → DeepMind Alphafold, OpenAI GTP-3/DALL-E/CLIP <br /> <br /> [Feature Stores]<br />
-
Desde que a Uber apresentou a ideia em 2017, isso vem se tornando cada vez mais comum no stack de machine learning <br /> → Empresas como Tecton, Rasgo, Logical Clocks e Kaskada fizeram rodadas de investimento <br />
-
Em machine learning, features (variáveis ou atributos) são propriedades ou características mensuráveis individualmente e são representadas como colunas em snippets de dados<br /> → Modelos de machine learning podem usar de uma única feature até milhões delas <br />
-
Com o uso de modelos e pipelines cada vez mais complexos, isso passou a ser feito de forma cada vez mais ad hoc <br />
-
Engenheiros e cientistas de dados frequentemente gastam muito tempo reextraindo features a partir de dados brutos <br />
-
A lacuna entre ambientes de produção e de experimentação pode causar inconsistências no desempenho ou no comportamento do modelo<br />
-
Como as organizações também se preocupam com governança e reprodutibilidade de modelos de machine learning, o isolamento em silos de features torna tudo ainda mais difícil na prática <br />
-
O feature store promove colaboração e elimina esses silos <br />
-
Ele reduz a complexidade ao fornecer uma única fonte de verdade tanto para treinamento quanto para produção, além de padronizar e reutilizar features <br />
-
Armazena features selecionadas dentro da organização, executa pipelines de dados que transformam dados brutos em valores de feature e oferece acesso rápido por API <br /> <br /> [The Rise of ModelOps]<br />
-
Muitas empresas perceberam que levar modelos da fase experimental para produção é difícil e que os modelos em uso exigem monitoramento contínuo e retreinamento <br />
-
MLOps aplica as melhores práticas de DevOps. Ele simplifica o desenvolvimento e a implantação rápidos e contínuos de modelos em escala <br />
-
ModelOps é um superconjunto de MLOps. Seu objetivo é operar mais rapidamente todos os modelos de IA, incluindo ML, em todas as etapas, do treinamento à produção <br />
-
ModelOps abrange tanto ferramentas quanto processos, integra processos, padroniza a orquestração de modelos e fornece um repositório centralizado para todos os modelos, junto com recursos abrangentes de governança <br />
-
Um ModelOps bem implementado fornece um sistema unificado para implantar/monitorar e gerenciar todos os modelos, reduzindo riscos e aumentando a compliance <br /> <br /> [AI Content Generation]<br />
-
A IA amadureceu bastante nos últimos anos e passou a ser usada para criar conteúdo em todos os tipos de mídia, incluindo texto, imagem, código e vídeo<br />
-
Divulgação do OpenAI GPT-3. O GitHub apresentou o GitHub Copilot usando o OpenAI Codex <br />
-
Embora a OpenAI esteja focada em modelos centrados no inglês, há muitas outras empresas trabalhando em outros idiomas <br /> → Aleph Alpha, da Alemanha, AI21 Labs, PanGu, da Huawei, HyperCLOVA, da Naver<br /> <br /> [O surgimento contínuo de uma pilha de IA chinesa separada]<br />
-
A China continua avançando como uma potência global de IA, com seu próprio mercado, o maior produtor de dados do mundo <br />
-
O TikTok, um dos melhores algoritmos de recomendação, teve sucesso no Ocidente, marcando a primeira disseminação real de tecnologia de consumo de IA chinesa <br />
-
Com a China declarando a hegemonia em IA até 2030 e recebendo apoio financeiro, começou a surgir uma pilha própria e separada no país, que até então ainda utilizava ferramentas ocidentais </p>
3 comentários