A ascensão da infraestrutura de dados para IA

(felicis.com)

16 pontos por xguru 2024-11-25 | Ainda não há comentários. | Compartilhar no WhatsApp

"Estamos no início de uma nova revolução industrial. Em vez de gerar eletricidade, estamos gerando inteligência artificial... o [código aberto] permite que toda empresa se torne uma empresa de IA" - Jensen Huang

Extrair informações de documentos não é um conceito novo. Mas a IA generativa (GenAI) exige grandes volumes de dados de alta qualidade
Os dados são importantes tanto no treinamento quanto na inferência, e vão além da escala, expandindo-se de texto e dados tabulares para vídeo, imagem e áudio
Também se observa um aumento dos dados espaciais, como imagens de satélite e dados de sensores de robôs
Quais são as novas áreas da camada de dados que podem ser recriadas mais imediatamente por causa da IA?
- extração e pipelines de dados não estruturados, Retrieval-Augmented Generation (RAG), curadoria de dados, armazenamento de dados, memória para inteligência artificial
O objetivo deste texto é analisar o ecossistema de infraestrutura de dados para IA, compartilhar tendências recentes e discutir as áreas de inovação mais promissoras

Estado atual da infraestrutura de dados para IA

Busca-se visualizar de forma simples o fluxo de dados na cadeia de valor de dados para IA e explicar o fluxo dos processos de treinamento e inferência
A cadeia de valor da infraestrutura de dados é dividida em seis áreas principais
- Fontes de dados (Sources)
- Ingestão e transformação de dados (Ingestion & Transformation)
- Armazenamento (Storage)
- Treinamento (Training)
- Inferência (Inference)
- Serviços de dados (Data Services)

Fontes de dados

Dados de aplicativos: extraídos de Salesforce, ServiceNow etc.
Dados em tempo real: sensores, manufatura, dados médicos
Bancos de dados OLTP: dados transacionais como Oracle e MongoDB
Dados sintéticos: dados gerados artificialmente, não coletados do mundo real (e.g., Mostly AI, Datagen, Tonic)
- Custam menos e são vantajosos do ponto de vista de conformidade de dados
- No entanto, têm limitações para otimizar o desempenho do modelo por não representarem bem dados estatisticamente atípicos
Dados da web: coleta de dados públicos por meio de web scraping (e.g., Browse AI, Apify)
- São essenciais para treinar modelos de dados em grande escala, mas existe a possibilidade de esgotamento dos dados públicos (estimado entre 2026 e 2032)

Ingestão e transformação de dados

Pipelines de dados são o processo de transferir dados da origem ao destino e transformá-los em um estado analisável
- ETL/ELT: abordagem tradicional (processamento em lote, processamento em streaming)
- Feature engineering/pipelines: em ML, geralmente voltados ao processamento de dados tabulares
- Pipelines de dados não estruturados: integram extração, transformação e armazenamento para organizar e guardar dados não estruturados
Tipos de pipeline
- Processamento em lote: extrai e carrega dados em intervalos específicos
- Processamento em streaming: carrega dados em tempo real (Kafka, Flink etc.)
Ferramentas e frameworks
- Streaming (Kafka, Confluent), motores de processamento (Databricks, Flink), ferramentas de orquestração (Astronomer, Dagster, Airflow, Prefect etc.)
- Ferramentas de rotulagem: LabelBox, Scale AI etc. (a rotulagem de dados de teste é importante)
  - Lote: ETL (Airbyte, Fivetran), transformação (dbt, coalesce)
  - Processamento de dados não estruturados: Datavolo, Unstructured, LlamaIndex etc.

Armazenamento de dados

Abordagem tradicional: armazenamento em data warehouse
Dados usados em IA:
- uso de estruturas de data lake e lakehouse
- armazenamento de embeddings de dados por meio de bancos de dados vetoriais
Principais ferramentas:
- Data lake: Databricks, Onehouse, Tabular, Amazon S3, GCS etc.
  - Vector DB: Pinecone, Chroma, Milvus, Weaviete etc.

Treinamento de modelos

Métodos de aprendizado:
- aprendizado supervisionado, não supervisionado e por reforço
Processo de treinamento de grandes modelos de linguagem (LLM):
- pré-treinamento: reconhecimento de padrões nos dados via aprendizado não supervisionado
- aprendizado supervisionado: otimização de desempenho
- aprendizado por reforço (RLHF): melhoria de desempenho com feedback humano
Validação e avaliação:
- avaliação da adequação do modelo por acurácia, precisão, minimização de perda etc.
Etapa final:
- testes de segurança, governança e verificação de compliance
Principais ferramentas:
- Training: TensorFlow, Modular
  - Evaluation: neptune.ai, Weights & Biases
  - MLOps: Databricks, H2O.ai, DataRobot, Dataiku, DOMINO
  - Model: OpenAI, Cohere, Mistral AI, Runway

Inferência de modelos

Processo:
- entrada do prompt → tokenização/vetorização → processamento dos dados → geração da saída
Customização:
- integração entre banco de dados vetorial e LLM
- geração de resultados únicos que refletem o contexto do usuário
Pontos essenciais a considerar:
- segurança dos dados, qualidade do modelo e compliance
Principais ferramentas:
- Tooling: ANON, E2B
- Memory: MemGPT, cognee.ai
- RAG Framework: LangCHain, LlamaIndex, contextual.ai, databricks
- Agent/App: ChatGPT, Claude, character.ai, Decagon, NormAi

Serviços de dados

Categorias:
- Segurança de dados: controle de acesso, prevenção contra vazamento de dados (Rubrik, eureka, imperva, sentra, Dig, Cyera, Varonis, BigID)
- Visibilidade de dados: monitoramento da qualidade e do desempenho de pipelines de dados (Anomalo, datologyai, OBSERVE, MonteCarlo, Cleanlab, Scale AI, onum, metaplane)
- Catálogo de dados: centralização de metadados, organização de ativos de dados (atlan, Alation, Collibra, Informatica, Acryl Data, CastorDoc, select star, data.world)
Conclusão:
- Quanto melhor organizados estiverem os dados, mais eficientes serão a segurança, a visibilidade e a gestão

[Reconfiguração dos dados causada pela IA]

Devido à IA, observa-se inovação nas seguintes áreas da infraestrutura de dados:

1. Pipelines de dados não estruturados para agentes e aplicações de IA

Ascensão dos pipelines de dados não estruturados:
- aumento da demanda para usar dados internos não estruturados em IA conversacional e aplicações com agentes
- os pipelines de dados não estruturados incluem um processo semelhante ao dos pipelines tradicionais: extração, transformação, indexação e armazenamento
Principais fontes de dados:
- texto em PDF, bases de conhecimento, imagens etc.
- dados que, em geral, dão suporte a casos de uso de IA conversacional
Fatores de diferenciação:
- a diferença em relação aos pipelines existentes aparece na etapa de transformação:
  - chunking de dados: dividir os dados em unidades menores
  - extração de metadados: gerar os dados necessários para indexação
  - embeddings: converter cada chunk de dados em formato vetorial para armazenamento
Fatores de sucesso:
- a escolha da estratégia de chunking e do modelo de embeddings tem impacto importante na precisão da busca de dados
- surgimento de modelos de embeddings especializados por domínio: por exemplo, modelos especializados em código ou conteúdo jurídico
Uso de bancos de dados compatíveis com vetores:
- transformam dados não estruturados para armazenamento e consulta em formatos pesquisáveis
- permitem personalizar LLMs por meio de RAG (Retrieval-Augmented Generation) e agentes
Principais observações
- equipes estão testando várias estratégias de chunking
- modelos de embeddings especializados por domínio estão aumentando gradualmente e contribuindo para melhorar precisão e desempenho
- empresas estão buscando ferramentas que convertam dados em formatos fáceis de consultar

2. Retrieval-Augmented Generation (RAG)

Visão geral do RAG:
- RAG é um fluxo de trabalho arquitetural que usa dados personalizados para melhorar a eficiência de aplicações com LLM
- Como funciona:
  - os dados são carregados e "indexados" para tratamento de consultas
  - a consulta filtra os dados mais relevantes com base no índice
  - o contexto filtrado e a consulta são enviados ao LLM em um prompt para gerar a resposta
- possibilita ativar dados como parte da experiência do produto
Principais vantagens do RAG:
- Fornecimento de informações atualizadas:
  - LLMs são limitados aos dados de pré-treinamento e podem gerar respostas desatualizadas ou imprecisas
  - o RAG acessa fontes externas de informação para fornecer respostas mais recentes
- Reforço da factualidade:
  - o RAG compensa situações em que o LLM não consegue fornecer informações corretas
  - usa bases de conhecimento selecionadas para oferecer informações mais confiáveis
- Fornecimento de fontes:
  - é possível adicionar citações e anotações às respostas do LLM
  - aumenta a confiança do usuário

3. Curadoria de dados para melhorar o desempenho de treinamento e inferência

Curadoria de dados: processo de filtrar e organizar conjuntos de dados para alcançar o melhor desempenho em treinamento e inferência
- Principais tarefas:
  - classificação de texto
  - aplicação de filtros NSFW
  - deduplicação de dados
  - otimização do tamanho de batch
  - otimização das fontes com base em desempenho
  - aumento de dados com dados sintéticos
Insights do anúncio do Meta Llama-3:
- Curadoria de dados de treinamento:
  - "Para treinar os melhores modelos de linguagem, é importante a curadoria de grandes conjuntos de dados de alta qualidade"
  - a Meta desenvolveu o seguinte pipeline de filtragem de dados:
    - filtros heurísticos
    - filtro NSFW
    - deduplicação semântica
    - classificador de texto para prever a qualidade dos dados
- Curadoria de dados para fine-tuning:
  - "As maiores melhorias na qualidade do modelo são obtidas ao curar cuidadosamente os dados e revisar as anotações de anotadores humanos por meio de múltiplas etapas de garantia de qualidade"
Efeitos da curadoria de dados:
- segundo a equipe de pesquisa da Meta AI:
  - a curadoria reduz o tempo de treinamento em até 20%
  - melhora a acurácia downstream
  - oferece um caminho para melhorar o desempenho do modelo mesmo em um cenário de esgotamento dos dados da internet
Direção futura:
- filtros automatizados de alta qualidade, deduplicação e classificadores serão importantes para treinamento e fine-tuning de modelos
- empresas como Datology AI estão trabalhando para viabilizar isso

4. Armazenamento de dados para IA

Há três tendências principais na forma de armazenar dados para IA:
- bancos de dados vetoriais
- ascensão dos data lakes
- aumento dos investimentos em lakehouses
Importância dos bancos de dados vetoriais:
- os bancos de dados vetoriais são vistos como uma das tecnologias centrais do boom da IA
- são adequados para armazenar embeddings de dados (representações numéricas):
  - convertem e armazenam dados não estruturados (imagem, áudio, vídeo etc.) em formato numérico
  - dão suporte à busca semântica (por exemplo, ao buscar "dog", retornar "wolf" ou "puppy")
- Formatos de bancos de dados vetoriais:
  - Bancos de dados vetoriais nativos: projetados exclusivamente para armazenamento vetorial
  - Extensões de bancos de dados existentes: adicionam suporte a vetores a bancos já existentes
- Caso de uso: personalização de LLM
  - dados customizados de empresas podem ser armazenados e recuperados como embeddings vetoriais
  - agentes de IA podem usar essa estrutura para fornecer experiências sob medida
Data lakes e lakehouses
- Ascensão dos data lakes:
  - a maioria das empresas armazena grandes volumes de dados em data lakes
  - o uso de data lakes é indispensável para desenvolver IA customizada
- Arquitetura lakehouse:
  - oferece uma arquitetura para gerenciar e consultar data lakes com eficiência
  - organiza os dados em formatos abertos de tabela:
    - como Iceberg, Delta Lake e Hudi
  - melhora a organização dos dados e o desempenho de consultas
- O papel da Databricks:
  - a Databricks adquiriu a Tabular e integrou as equipes de desenvolvimento de Delta Lake e Iceberg
  - dificulta a entrada de concorrentes e lidera o avanço da tecnologia lakehouse

5. Memória de IA

Ascensão da memória de IA:
- após o anúncio do recurso de memória do ChatGPT, a memória de IA se tornou um tema central de discussão
- sistemas padrão de IA carecem de memória episódica robusta e continuidade entre interações:
  - os sistemas atuais estão em uma espécie de estado de amnésia de curto prazo
  - isso limita o raciocínio sequencial complexo e o compartilhamento de conhecimento em sistemas multiagentes
Memória em sistemas multiagentes
- à medida que evoluímos para sistemas multiagentes, torna-se necessário um sistema de gerenciamento de memória entre agentes
- Requisitos funcionais:
  - suporte ao armazenamento de lembranças por agente e ao acesso entre sessões
  - inclusão de controles de acesso e privacidade
  - pooling de memória entre agentes:
    - um agente pode aproveitar a experiência de outro
    - melhora a capacidade de tomada de decisão
- necessidade de memória hierárquica:
  - a memória deve ser armazenada em camadas conforme frequência de acesso, importância e custo
MemGPT: framework líder em gerenciamento de memória para IA
- visão do MemGPT: conduzir a evolução em que os LLMs impulsionam a próxima geração de sistemas operacionais (OS)
- Visão geral da arquitetura:
  - Tipos de memória:
    - Memória de contexto principal: semelhante à memória principal (RAM)
    - Memória de contexto externa: semelhante à memória em disco/armazenamento em disco
Importância da memória de IA
- dá suporte à personalização, ao aprendizado e à reflexão, sendo essencial para o avanço das aplicações de IA
- melhora a capacidade de resolver tarefas complexas por meio da colaboração e do compartilhamento de memória entre agentes

Oportunidades nas cargas de trabalho de IA

Cargas de trabalho de IA e infraestrutura de dados:
- embora a ascensão da GenAI não tenha transformado todos os aspectos da infraestrutura de dados, o surgimento das tecnologias a seguir representa um avanço muito interessante:
  - extração e pipelining de dados não estruturados
  - Retrieval-Augmented Generation (RAG)
  - curadoria de dados
  - armazenamento de dados
  - memória de IA
Estratégia de investimento da Felicis
- Foco no futuro da IA e da infraestrutura de dados:
  - investimento em startups relacionadas à camada de dados e infraestrutura
  - principais exemplos de investimento:
    - Datology: curadoria de dados
    - Metaplane: observabilidade de dados (data observability)
    - MotherDuck: data warehouse serverless
    - Weights & Biases: ferramenta de rastreamento de experimentos
Potencial de crescimento do mercado de IA
- Escalabilidade:
  - o mercado de IA está se expandindo amplamente, de chatbots a fluxos de trabalho multiagentes
  - estamos apenas no começo, e há muito espaço para mais avanços
- Importância das soluções de dados:
  - soluções de dados são centrais para aplicações de IA bem-sucedidas
  - espera-se a construção de negócios de dados em grande escala para dar suporte às cargas de trabalho de IA

A ascensão da infraestrutura de dados para IA

Estado atual da infraestrutura de dados para IA

Fontes de dados

Ingestão e transformação de dados

Armazenamento de dados

Treinamento de modelos

Inferência de modelos

Serviços de dados

[Reconfiguração dos dados causada pela IA]

1. Pipelines de dados não estruturados para agentes e aplicações de IA

2. Retrieval-Augmented Generation (RAG)

3. Curadoria de dados para melhorar o desempenho de treinamento e inferência

4. Armazenamento de dados para IA

5. Memória de IA

Oportunidades nas cargas de trabalho de IA

Leituras relacionadas

Ainda não há comentários.