16 pontos por xguru 2024-11-25 | Ainda não há comentários. | Compartilhar no WhatsApp

> "Estamos no início de uma nova revolução industrial. Em vez de gerar eletricidade, estamos gerando inteligência artificial... o [código aberto] permite que toda empresa se torne uma empresa de IA" - Jensen Huang

  • Extrair informações de documentos não é um conceito novo. Mas a IA generativa (GenAI) exige grandes volumes de dados de alta qualidade
  • Os dados são importantes tanto no treinamento quanto na inferência, e vão além da escala, expandindo-se de texto e dados tabulares para vídeo, imagem e áudio
  • Também se observa um aumento dos dados espaciais, como imagens de satélite e dados de sensores de robôs
  • Quais são as novas áreas da camada de dados que podem ser recriadas mais imediatamente por causa da IA?
    • extração e pipelines de dados não estruturados, Retrieval-Augmented Generation (RAG), curadoria de dados, armazenamento de dados, memória para inteligência artificial
  • O objetivo deste texto é analisar o ecossistema de infraestrutura de dados para IA, compartilhar tendências recentes e discutir as áreas de inovação mais promissoras

Estado atual da infraestrutura de dados para IA

  • Busca-se visualizar de forma simples o fluxo de dados na cadeia de valor de dados para IA e explicar o fluxo dos processos de treinamento e inferência
  • A cadeia de valor da infraestrutura de dados é dividida em seis áreas principais
    • Fontes de dados (Sources)
    • Ingestão e transformação de dados (Ingestion & Transformation)
    • Armazenamento (Storage)
    • Treinamento (Training)
    • Inferência (Inference)
    • Serviços de dados (Data Services)

Fontes de dados

  • Dados de aplicativos: extraídos de Salesforce, ServiceNow etc.
  • Dados em tempo real: sensores, manufatura, dados médicos
  • Bancos de dados OLTP: dados transacionais como Oracle e MongoDB
  • Dados sintéticos: dados gerados artificialmente, não coletados do mundo real (e.g., Mostly AI, Datagen, Tonic)
    • Custam menos e são vantajosos do ponto de vista de conformidade de dados
    • No entanto, têm limitações para otimizar o desempenho do modelo por não representarem bem dados estatisticamente atípicos
  • Dados da web: coleta de dados públicos por meio de web scraping (e.g., Browse AI, Apify)
    • São essenciais para treinar modelos de dados em grande escala, mas existe a possibilidade de esgotamento dos dados públicos (estimado entre 2026 e 2032)

Ingestão e transformação de dados

  • Pipelines de dados são o processo de transferir dados da origem ao destino e transformá-los em um estado analisável
    • ETL/ELT: abordagem tradicional (processamento em lote, processamento em streaming)
    • Feature engineering/pipelines: em ML, geralmente voltados ao processamento de dados tabulares
    • Pipelines de dados não estruturados: integram extração, transformação e armazenamento para organizar e guardar dados não estruturados
  • Tipos de pipeline
    • Processamento em lote: extrai e carrega dados em intervalos específicos
    • Processamento em streaming: carrega dados em tempo real (Kafka, Flink etc.)
  • Ferramentas e frameworks
    • Streaming (Kafka, Confluent), motores de processamento (Databricks, Flink), ferramentas de orquestração (Astronomer, Dagster, Airflow, Prefect etc.)
    • Ferramentas de rotulagem: LabelBox, Scale AI etc. (a rotulagem de dados de teste é importante)
      • Lote: ETL (Airbyte, Fivetran), transformação (dbt, coalesce)
      • Processamento de dados não estruturados: Datavolo, Unstructured, LlamaIndex etc.

Armazenamento de dados

  • Abordagem tradicional: armazenamento em data warehouse
  • Dados usados em IA:
    • uso de estruturas de data lake e lakehouse
    • armazenamento de embeddings de dados por meio de bancos de dados vetoriais
  • Principais ferramentas:
    • Data lake: Databricks, Onehouse, Tabular, Amazon S3, GCS etc.
      • Vector DB: Pinecone, Chroma, Milvus, Weaviete etc.

Treinamento de modelos

  • Métodos de aprendizado:
    • aprendizado supervisionado, não supervisionado e por reforço
  • Processo de treinamento de grandes modelos de linguagem (LLM):
    • pré-treinamento: reconhecimento de padrões nos dados via aprendizado não supervisionado
    • aprendizado supervisionado: otimização de desempenho
    • aprendizado por reforço (RLHF): melhoria de desempenho com feedback humano
  • Validação e avaliação:
    • avaliação da adequação do modelo por acurácia, precisão, minimização de perda etc.
  • Etapa final:
    • testes de segurança, governança e verificação de compliance
  • Principais ferramentas:
    • Training: TensorFlow, Modular
      • Evaluation: neptune.ai, Weights & Biases
      • MLOps: Databricks, H2O.ai, DataRobot, Dataiku, DOMINO
      • Model: OpenAI, Cohere, Mistral AI, Runway

Inferência de modelos

  • Processo:
    • entrada do prompt → tokenização/vetorização → processamento dos dados → geração da saída
  • Customização:
    • integração entre banco de dados vetorial e LLM
    • geração de resultados únicos que refletem o contexto do usuário
  • Pontos essenciais a considerar:
    • segurança dos dados, qualidade do modelo e compliance
  • Principais ferramentas:
    • Tooling: ANON, E2B
    • Memory: MemGPT, cognee.ai
    • RAG Framework: LangCHain, LlamaIndex, contextual.ai, databricks
    • Agent/App: ChatGPT, Claude, character.ai, Decagon, NormAi

Serviços de dados

  • Categorias:
    • Segurança de dados: controle de acesso, prevenção contra vazamento de dados (Rubrik, eureka, imperva, sentra, Dig, Cyera, Varonis, BigID)
    • Visibilidade de dados: monitoramento da qualidade e do desempenho de pipelines de dados (Anomalo, datologyai, OBSERVE, MonteCarlo, Cleanlab, Scale AI, onum, metaplane)
    • Catálogo de dados: centralização de metadados, organização de ativos de dados (atlan, Alation, Collibra, Informatica, Acryl Data, CastorDoc, select star, data.world)
  • Conclusão:
    • Quanto melhor organizados estiverem os dados, mais eficientes serão a segurança, a visibilidade e a gestão

[Reconfiguração dos dados causada pela IA]

Devido à IA, observa-se inovação nas seguintes áreas da infraestrutura de dados:

1. Pipelines de dados não estruturados para agentes e aplicações de IA

  • Ascensão dos pipelines de dados não estruturados:
    • aumento da demanda para usar dados internos não estruturados em IA conversacional e aplicações com agentes
    • os pipelines de dados não estruturados incluem um processo semelhante ao dos pipelines tradicionais: extração, transformação, indexação e armazenamento
  • Principais fontes de dados:
    • texto em PDF, bases de conhecimento, imagens etc.
    • dados que, em geral, dão suporte a casos de uso de IA conversacional
  • Fatores de diferenciação:
    • a diferença em relação aos pipelines existentes aparece na etapa de transformação:
      • chunking de dados: dividir os dados em unidades menores
      • extração de metadados: gerar os dados necessários para indexação
      • embeddings: converter cada chunk de dados em formato vetorial para armazenamento
  • Fatores de sucesso:
    • a escolha da estratégia de chunking e do modelo de embeddings tem impacto importante na precisão da busca de dados
    • surgimento de modelos de embeddings especializados por domínio: por exemplo, modelos especializados em código ou conteúdo jurídico
  • Uso de bancos de dados compatíveis com vetores:
    • transformam dados não estruturados para armazenamento e consulta em formatos pesquisáveis
    • permitem personalizar LLMs por meio de RAG (Retrieval-Augmented Generation) e agentes
  • Principais observações
    • equipes estão testando várias estratégias de chunking
    • modelos de embeddings especializados por domínio estão aumentando gradualmente e contribuindo para melhorar precisão e desempenho
    • empresas estão buscando ferramentas que convertam dados em formatos fáceis de consultar

2. Retrieval-Augmented Generation (RAG)

  • Visão geral do RAG:
    • RAG é um fluxo de trabalho arquitetural que usa dados personalizados para melhorar a eficiência de aplicações com LLM
    • Como funciona:
      • os dados são carregados e "indexados" para tratamento de consultas
      • a consulta filtra os dados mais relevantes com base no índice
      • o contexto filtrado e a consulta são enviados ao LLM em um prompt para gerar a resposta
    • possibilita ativar dados como parte da experiência do produto
  • Principais vantagens do RAG:
    • Fornecimento de informações atualizadas:
      • LLMs são limitados aos dados de pré-treinamento e podem gerar respostas desatualizadas ou imprecisas
      • o RAG acessa fontes externas de informação para fornecer respostas mais recentes
    • Reforço da factualidade:
      • o RAG compensa situações em que o LLM não consegue fornecer informações corretas
      • usa bases de conhecimento selecionadas para oferecer informações mais confiáveis
    • Fornecimento de fontes:
      • é possível adicionar citações e anotações às respostas do LLM
      • aumenta a confiança do usuário

3. Curadoria de dados para melhorar o desempenho de treinamento e inferência

  • Curadoria de dados: processo de filtrar e organizar conjuntos de dados para alcançar o melhor desempenho em treinamento e inferência
    • Principais tarefas:
      • classificação de texto
      • aplicação de filtros NSFW
      • deduplicação de dados
      • otimização do tamanho de batch
      • otimização das fontes com base em desempenho
      • aumento de dados com dados sintéticos
  • Insights do anúncio do Meta Llama-3:
    • Curadoria de dados de treinamento:
      • "Para treinar os melhores modelos de linguagem, é importante a curadoria de grandes conjuntos de dados de alta qualidade"
      • a Meta desenvolveu o seguinte pipeline de filtragem de dados:
        • filtros heurísticos
        • filtro NSFW
        • deduplicação semântica
        • classificador de texto para prever a qualidade dos dados
    • Curadoria de dados para fine-tuning:
      • "As maiores melhorias na qualidade do modelo são obtidas ao curar cuidadosamente os dados e revisar as anotações de anotadores humanos por meio de múltiplas etapas de garantia de qualidade"
  • Efeitos da curadoria de dados:
    • segundo a equipe de pesquisa da Meta AI:
      • a curadoria reduz o tempo de treinamento em até 20%
      • melhora a acurácia downstream
      • oferece um caminho para melhorar o desempenho do modelo mesmo em um cenário de esgotamento dos dados da internet
  • Direção futura:
    • filtros automatizados de alta qualidade, deduplicação e classificadores serão importantes para treinamento e fine-tuning de modelos
    • empresas como Datology AI estão trabalhando para viabilizar isso

4. Armazenamento de dados para IA

  • Há três tendências principais na forma de armazenar dados para IA:
    • bancos de dados vetoriais
    • ascensão dos data lakes
    • aumento dos investimentos em lakehouses
  • Importância dos bancos de dados vetoriais:
    • os bancos de dados vetoriais são vistos como uma das tecnologias centrais do boom da IA
    • são adequados para armazenar embeddings de dados (representações numéricas):
      • convertem e armazenam dados não estruturados (imagem, áudio, vídeo etc.) em formato numérico
      • dão suporte à busca semântica (por exemplo, ao buscar "dog", retornar "wolf" ou "puppy")
    • Formatos de bancos de dados vetoriais:
      • Bancos de dados vetoriais nativos: projetados exclusivamente para armazenamento vetorial
      • Extensões de bancos de dados existentes: adicionam suporte a vetores a bancos já existentes
    • Caso de uso: personalização de LLM
      • dados customizados de empresas podem ser armazenados e recuperados como embeddings vetoriais
      • agentes de IA podem usar essa estrutura para fornecer experiências sob medida
  • Data lakes e lakehouses
    • Ascensão dos data lakes:
      • a maioria das empresas armazena grandes volumes de dados em data lakes
      • o uso de data lakes é indispensável para desenvolver IA customizada
    • Arquitetura lakehouse:
      • oferece uma arquitetura para gerenciar e consultar data lakes com eficiência
      • organiza os dados em formatos abertos de tabela:
        • como Iceberg, Delta Lake e Hudi
      • melhora a organização dos dados e o desempenho de consultas
    • O papel da Databricks:
      • a Databricks adquiriu a Tabular e integrou as equipes de desenvolvimento de Delta Lake e Iceberg
      • dificulta a entrada de concorrentes e lidera o avanço da tecnologia lakehouse

5. Memória de IA

  • Ascensão da memória de IA:
    • após o anúncio do recurso de memória do ChatGPT, a memória de IA se tornou um tema central de discussão
    • sistemas padrão de IA carecem de memória episódica robusta e continuidade entre interações:
      • os sistemas atuais estão em uma espécie de estado de amnésia de curto prazo
      • isso limita o raciocínio sequencial complexo e o compartilhamento de conhecimento em sistemas multiagentes
  • Memória em sistemas multiagentes
    • à medida que evoluímos para sistemas multiagentes, torna-se necessário um sistema de gerenciamento de memória entre agentes
    • Requisitos funcionais:
      • suporte ao armazenamento de lembranças por agente e ao acesso entre sessões
      • inclusão de controles de acesso e privacidade
      • pooling de memória entre agentes:
        • um agente pode aproveitar a experiência de outro
        • melhora a capacidade de tomada de decisão
    • necessidade de memória hierárquica:
      • a memória deve ser armazenada em camadas conforme frequência de acesso, importância e custo
  • MemGPT: framework líder em gerenciamento de memória para IA
    • visão do MemGPT: conduzir a evolução em que os LLMs impulsionam a próxima geração de sistemas operacionais (OS)
    • Visão geral da arquitetura:
      • Tipos de memória:
        • Memória de contexto principal: semelhante à memória principal (RAM)
        • Memória de contexto externa: semelhante à memória em disco/armazenamento em disco
  • Importância da memória de IA
    • dá suporte à personalização, ao aprendizado e à reflexão, sendo essencial para o avanço das aplicações de IA
    • melhora a capacidade de resolver tarefas complexas por meio da colaboração e do compartilhamento de memória entre agentes

Oportunidades nas cargas de trabalho de IA

  • Cargas de trabalho de IA e infraestrutura de dados:
    • embora a ascensão da GenAI não tenha transformado todos os aspectos da infraestrutura de dados, o surgimento das tecnologias a seguir representa um avanço muito interessante:
      • extração e pipelining de dados não estruturados
      • Retrieval-Augmented Generation (RAG)
      • curadoria de dados
      • armazenamento de dados
      • memória de IA
  • Estratégia de investimento da Felicis
    • Foco no futuro da IA e da infraestrutura de dados:
      • investimento em startups relacionadas à camada de dados e infraestrutura
      • principais exemplos de investimento:
        • Datology: curadoria de dados
        • Metaplane: observabilidade de dados (data observability)
        • MotherDuck: data warehouse serverless
        • Weights & Biases: ferramenta de rastreamento de experimentos
  • Potencial de crescimento do mercado de IA
    • Escalabilidade:
      • o mercado de IA está se expandindo amplamente, de chatbots a fluxos de trabalho multiagentes
      • estamos apenas no começo, e há muito espaço para mais avanços
    • Importância das soluções de dados:
      • soluções de dados são centrais para aplicações de IA bem-sucedidas
      • espera-se a construção de negócios de dados em grande escala para dar suporte às cargas de trabalho de IA

Ainda não há comentários.

Ainda não há comentários.