A ascensão da infraestrutura de dados para IA
(felicis.com)> "Estamos no início de uma nova revolução industrial. Em vez de gerar eletricidade, estamos gerando inteligência artificial... o [código aberto] permite que toda empresa se torne uma empresa de IA" - Jensen Huang
- Extrair informações de documentos não é um conceito novo. Mas a IA generativa (GenAI) exige grandes volumes de dados de alta qualidade
- Os dados são importantes tanto no treinamento quanto na inferência, e vão além da escala, expandindo-se de texto e dados tabulares para vídeo, imagem e áudio
- Também se observa um aumento dos dados espaciais, como imagens de satélite e dados de sensores de robôs
- Quais são as novas áreas da camada de dados que podem ser recriadas mais imediatamente por causa da IA?
- extração e pipelines de dados não estruturados, Retrieval-Augmented Generation (RAG), curadoria de dados, armazenamento de dados, memória para inteligência artificial
- O objetivo deste texto é analisar o ecossistema de infraestrutura de dados para IA, compartilhar tendências recentes e discutir as áreas de inovação mais promissoras
Estado atual da infraestrutura de dados para IA
- Busca-se visualizar de forma simples o fluxo de dados na cadeia de valor de dados para IA e explicar o fluxo dos processos de treinamento e inferência
- A cadeia de valor da infraestrutura de dados é dividida em seis áreas principais
- Fontes de dados (Sources)
- Ingestão e transformação de dados (Ingestion & Transformation)
- Armazenamento (Storage)
- Treinamento (Training)
- Inferência (Inference)
- Serviços de dados (Data Services)
Fontes de dados
- Dados de aplicativos: extraídos de Salesforce, ServiceNow etc.
- Dados em tempo real: sensores, manufatura, dados médicos
- Bancos de dados OLTP: dados transacionais como Oracle e MongoDB
- Dados sintéticos: dados gerados artificialmente, não coletados do mundo real (e.g., Mostly AI, Datagen, Tonic)
- Custam menos e são vantajosos do ponto de vista de conformidade de dados
- No entanto, têm limitações para otimizar o desempenho do modelo por não representarem bem dados estatisticamente atípicos
- Dados da web: coleta de dados públicos por meio de web scraping (e.g., Browse AI, Apify)
- São essenciais para treinar modelos de dados em grande escala, mas existe a possibilidade de esgotamento dos dados públicos (estimado entre 2026 e 2032)
Ingestão e transformação de dados
- Pipelines de dados são o processo de transferir dados da origem ao destino e transformá-los em um estado analisável
- ETL/ELT: abordagem tradicional (processamento em lote, processamento em streaming)
- Feature engineering/pipelines: em ML, geralmente voltados ao processamento de dados tabulares
- Pipelines de dados não estruturados: integram extração, transformação e armazenamento para organizar e guardar dados não estruturados
- Tipos de pipeline
- Processamento em lote: extrai e carrega dados em intervalos específicos
- Processamento em streaming: carrega dados em tempo real (Kafka, Flink etc.)
- Ferramentas e frameworks
- Streaming (Kafka, Confluent), motores de processamento (Databricks, Flink), ferramentas de orquestração (Astronomer, Dagster, Airflow, Prefect etc.)
- Ferramentas de rotulagem: LabelBox, Scale AI etc. (a rotulagem de dados de teste é importante)
- Lote: ETL (Airbyte, Fivetran), transformação (dbt, coalesce)
- Processamento de dados não estruturados: Datavolo, Unstructured, LlamaIndex etc.
Armazenamento de dados
- Abordagem tradicional: armazenamento em data warehouse
- Dados usados em IA:
- uso de estruturas de data lake e lakehouse
- armazenamento de embeddings de dados por meio de bancos de dados vetoriais
- Principais ferramentas:
- Data lake: Databricks, Onehouse, Tabular, Amazon S3, GCS etc.
- Vector DB: Pinecone, Chroma, Milvus, Weaviete etc.
- Data lake: Databricks, Onehouse, Tabular, Amazon S3, GCS etc.
Treinamento de modelos
- Métodos de aprendizado:
- aprendizado supervisionado, não supervisionado e por reforço
- Processo de treinamento de grandes modelos de linguagem (LLM):
- pré-treinamento: reconhecimento de padrões nos dados via aprendizado não supervisionado
- aprendizado supervisionado: otimização de desempenho
- aprendizado por reforço (RLHF): melhoria de desempenho com feedback humano
- Validação e avaliação:
- avaliação da adequação do modelo por acurácia, precisão, minimização de perda etc.
- Etapa final:
- testes de segurança, governança e verificação de compliance
- Principais ferramentas:
- Training: TensorFlow, Modular
- Evaluation: neptune.ai, Weights & Biases
- MLOps: Databricks, H2O.ai, DataRobot, Dataiku, DOMINO
- Model: OpenAI, Cohere, Mistral AI, Runway
- Training: TensorFlow, Modular
Inferência de modelos
- Processo:
- entrada do prompt → tokenização/vetorização → processamento dos dados → geração da saída
- Customização:
- integração entre banco de dados vetorial e LLM
- geração de resultados únicos que refletem o contexto do usuário
- Pontos essenciais a considerar:
- segurança dos dados, qualidade do modelo e compliance
- Principais ferramentas:
- Tooling: ANON, E2B
- Memory: MemGPT, cognee.ai
- RAG Framework: LangCHain, LlamaIndex, contextual.ai, databricks
- Agent/App: ChatGPT, Claude, character.ai, Decagon, NormAi
Serviços de dados
- Categorias:
- Segurança de dados: controle de acesso, prevenção contra vazamento de dados (Rubrik, eureka, imperva, sentra, Dig, Cyera, Varonis, BigID)
- Visibilidade de dados: monitoramento da qualidade e do desempenho de pipelines de dados (Anomalo, datologyai, OBSERVE, MonteCarlo, Cleanlab, Scale AI, onum, metaplane)
- Catálogo de dados: centralização de metadados, organização de ativos de dados (atlan, Alation, Collibra, Informatica, Acryl Data, CastorDoc, select star, data.world)
- Conclusão:
- Quanto melhor organizados estiverem os dados, mais eficientes serão a segurança, a visibilidade e a gestão
[Reconfiguração dos dados causada pela IA]
Devido à IA, observa-se inovação nas seguintes áreas da infraestrutura de dados:
1. Pipelines de dados não estruturados para agentes e aplicações de IA
- Ascensão dos pipelines de dados não estruturados:
- aumento da demanda para usar dados internos não estruturados em IA conversacional e aplicações com agentes
- os pipelines de dados não estruturados incluem um processo semelhante ao dos pipelines tradicionais: extração, transformação, indexação e armazenamento
- Principais fontes de dados:
- texto em PDF, bases de conhecimento, imagens etc.
- dados que, em geral, dão suporte a casos de uso de IA conversacional
- Fatores de diferenciação:
- a diferença em relação aos pipelines existentes aparece na etapa de transformação:
- chunking de dados: dividir os dados em unidades menores
- extração de metadados: gerar os dados necessários para indexação
- embeddings: converter cada chunk de dados em formato vetorial para armazenamento
- a diferença em relação aos pipelines existentes aparece na etapa de transformação:
- Fatores de sucesso:
- a escolha da estratégia de chunking e do modelo de embeddings tem impacto importante na precisão da busca de dados
- surgimento de modelos de embeddings especializados por domínio: por exemplo, modelos especializados em código ou conteúdo jurídico
- Uso de bancos de dados compatíveis com vetores:
- transformam dados não estruturados para armazenamento e consulta em formatos pesquisáveis
- permitem personalizar LLMs por meio de RAG (Retrieval-Augmented Generation) e agentes
- Principais observações
- equipes estão testando várias estratégias de chunking
- modelos de embeddings especializados por domínio estão aumentando gradualmente e contribuindo para melhorar precisão e desempenho
- empresas estão buscando ferramentas que convertam dados em formatos fáceis de consultar
2. Retrieval-Augmented Generation (RAG)
- Visão geral do RAG:
- RAG é um fluxo de trabalho arquitetural que usa dados personalizados para melhorar a eficiência de aplicações com LLM
- Como funciona:
- os dados são carregados e "indexados" para tratamento de consultas
- a consulta filtra os dados mais relevantes com base no índice
- o contexto filtrado e a consulta são enviados ao LLM em um prompt para gerar a resposta
- possibilita ativar dados como parte da experiência do produto
- Principais vantagens do RAG:
- Fornecimento de informações atualizadas:
- LLMs são limitados aos dados de pré-treinamento e podem gerar respostas desatualizadas ou imprecisas
- o RAG acessa fontes externas de informação para fornecer respostas mais recentes
- Reforço da factualidade:
- o RAG compensa situações em que o LLM não consegue fornecer informações corretas
- usa bases de conhecimento selecionadas para oferecer informações mais confiáveis
- Fornecimento de fontes:
- é possível adicionar citações e anotações às respostas do LLM
- aumenta a confiança do usuário
- Fornecimento de informações atualizadas:
3. Curadoria de dados para melhorar o desempenho de treinamento e inferência
- Curadoria de dados: processo de filtrar e organizar conjuntos de dados para alcançar o melhor desempenho em treinamento e inferência
- Principais tarefas:
- classificação de texto
- aplicação de filtros NSFW
- deduplicação de dados
- otimização do tamanho de batch
- otimização das fontes com base em desempenho
- aumento de dados com dados sintéticos
- Principais tarefas:
- Insights do anúncio do Meta Llama-3:
- Curadoria de dados de treinamento:
- "Para treinar os melhores modelos de linguagem, é importante a curadoria de grandes conjuntos de dados de alta qualidade"
- a Meta desenvolveu o seguinte pipeline de filtragem de dados:
- filtros heurísticos
- filtro NSFW
- deduplicação semântica
- classificador de texto para prever a qualidade dos dados
- Curadoria de dados para fine-tuning:
- "As maiores melhorias na qualidade do modelo são obtidas ao curar cuidadosamente os dados e revisar as anotações de anotadores humanos por meio de múltiplas etapas de garantia de qualidade"
- Curadoria de dados de treinamento:
- Efeitos da curadoria de dados:
- segundo a equipe de pesquisa da Meta AI:
- a curadoria reduz o tempo de treinamento em até 20%
- melhora a acurácia downstream
- oferece um caminho para melhorar o desempenho do modelo mesmo em um cenário de esgotamento dos dados da internet
- segundo a equipe de pesquisa da Meta AI:
- Direção futura:
- filtros automatizados de alta qualidade, deduplicação e classificadores serão importantes para treinamento e fine-tuning de modelos
- empresas como Datology AI estão trabalhando para viabilizar isso
4. Armazenamento de dados para IA
- Há três tendências principais na forma de armazenar dados para IA:
- bancos de dados vetoriais
- ascensão dos data lakes
- aumento dos investimentos em lakehouses
- Importância dos bancos de dados vetoriais:
- os bancos de dados vetoriais são vistos como uma das tecnologias centrais do boom da IA
- são adequados para armazenar embeddings de dados (representações numéricas):
- convertem e armazenam dados não estruturados (imagem, áudio, vídeo etc.) em formato numérico
- dão suporte à busca semântica (por exemplo, ao buscar "dog", retornar "wolf" ou "puppy")
- Formatos de bancos de dados vetoriais:
- Bancos de dados vetoriais nativos: projetados exclusivamente para armazenamento vetorial
- Extensões de bancos de dados existentes: adicionam suporte a vetores a bancos já existentes
- Caso de uso: personalização de LLM
- dados customizados de empresas podem ser armazenados e recuperados como embeddings vetoriais
- agentes de IA podem usar essa estrutura para fornecer experiências sob medida
- Data lakes e lakehouses
- Ascensão dos data lakes:
- a maioria das empresas armazena grandes volumes de dados em data lakes
- o uso de data lakes é indispensável para desenvolver IA customizada
- Arquitetura lakehouse:
- oferece uma arquitetura para gerenciar e consultar data lakes com eficiência
- organiza os dados em formatos abertos de tabela:
- como Iceberg, Delta Lake e Hudi
- melhora a organização dos dados e o desempenho de consultas
- O papel da Databricks:
- a Databricks adquiriu a Tabular e integrou as equipes de desenvolvimento de Delta Lake e Iceberg
- dificulta a entrada de concorrentes e lidera o avanço da tecnologia lakehouse
- Ascensão dos data lakes:
5. Memória de IA
- Ascensão da memória de IA:
- após o anúncio do recurso de memória do ChatGPT, a memória de IA se tornou um tema central de discussão
- sistemas padrão de IA carecem de memória episódica robusta e continuidade entre interações:
- os sistemas atuais estão em uma espécie de estado de amnésia de curto prazo
- isso limita o raciocínio sequencial complexo e o compartilhamento de conhecimento em sistemas multiagentes
- Memória em sistemas multiagentes
- à medida que evoluímos para sistemas multiagentes, torna-se necessário um sistema de gerenciamento de memória entre agentes
- Requisitos funcionais:
- suporte ao armazenamento de lembranças por agente e ao acesso entre sessões
- inclusão de controles de acesso e privacidade
- pooling de memória entre agentes:
- um agente pode aproveitar a experiência de outro
- melhora a capacidade de tomada de decisão
- necessidade de memória hierárquica:
- a memória deve ser armazenada em camadas conforme frequência de acesso, importância e custo
- MemGPT: framework líder em gerenciamento de memória para IA
- visão do MemGPT: conduzir a evolução em que os LLMs impulsionam a próxima geração de sistemas operacionais (OS)
- Visão geral da arquitetura:
- Tipos de memória:
- Memória de contexto principal: semelhante à memória principal (RAM)
- Memória de contexto externa: semelhante à memória em disco/armazenamento em disco
- Tipos de memória:
- Importância da memória de IA
- dá suporte à personalização, ao aprendizado e à reflexão, sendo essencial para o avanço das aplicações de IA
- melhora a capacidade de resolver tarefas complexas por meio da colaboração e do compartilhamento de memória entre agentes
Oportunidades nas cargas de trabalho de IA
- Cargas de trabalho de IA e infraestrutura de dados:
- embora a ascensão da GenAI não tenha transformado todos os aspectos da infraestrutura de dados, o surgimento das tecnologias a seguir representa um avanço muito interessante:
- extração e pipelining de dados não estruturados
- Retrieval-Augmented Generation (RAG)
- curadoria de dados
- armazenamento de dados
- memória de IA
- embora a ascensão da GenAI não tenha transformado todos os aspectos da infraestrutura de dados, o surgimento das tecnologias a seguir representa um avanço muito interessante:
- Estratégia de investimento da Felicis
- Foco no futuro da IA e da infraestrutura de dados:
- investimento em startups relacionadas à camada de dados e infraestrutura
- principais exemplos de investimento:
- Datology: curadoria de dados
- Metaplane: observabilidade de dados (data observability)
- MotherDuck: data warehouse serverless
- Weights & Biases: ferramenta de rastreamento de experimentos
- Foco no futuro da IA e da infraestrutura de dados:
- Potencial de crescimento do mercado de IA
- Escalabilidade:
- o mercado de IA está se expandindo amplamente, de chatbots a fluxos de trabalho multiagentes
- estamos apenas no começo, e há muito espaço para mais avanços
- Importância das soluções de dados:
- soluções de dados são centrais para aplicações de IA bem-sucedidas
- espera-se a construção de negócios de dados em grande escala para dar suporte às cargas de trabalho de IA
- Escalabilidade:
Ainda não há comentários.