28 pontos por xguru 2024-01-29 | 6 comentários | Compartilhar no WhatsApp

Definição da stack moderna de IA

  • Camada 1: Computação e modelos fundacionais - inclui os próprios modelos fundacionais e a infraestrutura para treinar, ajustar, otimizar e implantar modelos
  • Camada 2: Dados - inclui a infraestrutura que conecta LLMs ao contexto apropriado dentro dos sistemas de dados corporativos, incluindo componentes centrais como pré-processamento de dados, ETL e pipelines de dados, bancos de dados vetoriais, armazenamentos de metadados e caches de contexto
  • Camada 3: Implantação - inclui ferramentas que ajudam desenvolvedores a gerenciar e orquestrar aplicações de IA. Frameworks de agentes, gerenciamento de prompts, roteamento e orquestração de modelos
  • Camada 4: Observabilidade - inclui soluções para monitorar o comportamento em tempo de execução dos LLMs e protegê-los contra ameaças

Nova curva de maturidade da IA

  • A estrutura de mercado e as tecnologias que definem a stack moderna de IA estão evoluindo rapidamente, e seus principais componentes e líderes já começaram a surgir
  • Antes dos LLMs, o desenvolvimento de ML era linear e "centrado no modelo", mas os LLMs mudaram isso para um foco "centrado no produto", permitindo que equipes sem expertise em ML integrem IA aos produtos
  • À medida que a stack de IA amadurece, equipes de desenvolvimento tentam personalizar a experiência de IA com dados específicos da empresa ou do cliente
  • Curva de maturidade da IA
    • Etapa 1: Closed-source models only apenas modelos proprietários
      • No início de 2023, o custo e o esforço de engenharia estavam concentrados principalmente no próprio modelo fundacional, com apenas customizações simples por cima dele, como prompt engineering e aprendizado como few-shot learning
      • Grandes provedores de modelos proprietários, como OpenAI e Anthropic, ganharam tração inicial nessa etapa e se consolidaram como os primeiros vencedores da stack moderna de IA
    • Etapa 2: Retrieval-augmented generation geração aumentada por recuperação
      • O foco passa para a camada de dados, e não para a camada de modelos, como centro do esforço em aplicações de IA
      • Em especial, a popularização de RAG exige uma infraestrutura de camada de dados mais robusta, como o banco de dados vetorial Pinecone e o mecanismo de pré-processamento de dados Unstructured
      • A maioria das empresas e startups está atualmente nesta etapa
    • Etapa 3: Hybrid model deployment implantação híbrida de modelos
      • Empresas líderes como Typeface e Descript começaram a complementar o uso de modelos proprietários com open source para tarefas de grande escala específicas de domínio
      • Fornecedores de implantação de modelos como Modal, Baseten e Fireworks começaram a ganhar tração significativa
    • Etapa 4 ou além: Custom models modelos personalizados
      • Ainda há poucas empresas sofisticadas o bastante ou com necessidade real de construir seus próprios modelos, mas no futuro devem aumentar os casos de uso em grandes empresas que desejam explorar a stack mais profundamente
      • Empresas como Predibase e Lamini, que fornecem ferramentas para ajuste fino com eficiência de memória, incluindo quantização em 4 bits, QLoRA e paginação/offload de memória, ajudarão a viabilizar isso

Quatro princípios centrais de design para a nova stack de infraestrutura de IA

  • A revolução da IA não está apenas impulsionando a demanda por uma nova stack de infraestrutura, mas também remodelando a forma como as empresas abordam o desenvolvimento de aplicações, os gastos com P&D e a composição de equipes
  • Principais princípios de design:
    • 1. A maior parte do gasto vai para inferência e treinamento
      • No início da revolução dos LLMs, parecia que toda empresa seria capaz de treinar seu próprio modelo de linguagem de grande porte algum dia
      • Modelos como o BloombergGPT, anunciado em março de 2023 — um LLM de 50b treinado especificamente com dados financeiros — pareciam antecipar uma enxurrada de LLMs corporativos e específicos de domínio
      • Mas essa enxurrada não aconteceu
      • Segundo uma pesquisa recente da Menlo Ventures sobre IA empresarial, quase 95% de todo o gasto com IA está sendo direcionado para runtime e pré-treinamento
      • Essa proporção só se inverte em grandes provedores de modelos fundacionais, como a Anthropic. Na camada de aplicações, até mesmo builders sofisticados de IA, como a Writer, usam mais de 80% da computação em inferência, e não em treinamento
    • 2. Vivemos em um mundo multi-modelo
      • Nenhum modelo único pode "governar todos os modelos"
      • 60% das empresas usam vários modelos e roteiam prompts para o modelo com melhor desempenho
      • A abordagem multi-modelo elimina a dependência de um único modelo, oferece maior controle e reduz custos
    • 3. RAG é a abordagem arquitetural dominante
      • LLMs são excelentes motores de raciocínio, mas têm conhecimento limitado sobre domínios específicos e conhecimento corporativo
      • Para criar experiências de IA úteis, as equipes estão implantando rapidamente técnicas de aumento de conhecimento, começando por retrieval-augmented generation (RAG)
      • RAG dá uma "memória" específica da empresa ao modelo base por meio de bancos de dados vetoriais como o Pinecone
      • Essa técnica está muito à frente de outras formas de customização atualmente em produção, como ajuste fino, low-rank adaptation ou adapters, que operam principalmente na camada de modelos, e não na camada de dados
      • Essa tendência deve continuar, e espera-se que novas partes do plano de dados, incluindo mecanismos de pré-processamento de dados, como Cleanlab, e pipelines de ETL, como Unstructured, sejam incorporadas à arquitetura de runtime
    • 4. Todo desenvolvedor agora é um desenvolvedor de IA
      • Há 30 milhões de desenvolvedores no mundo, mas apenas 300 mil engenheiros de ML e 30 mil pesquisadores de ML
      • Entre as pessoas que inovam na fronteira do ML, estima-se que existam apenas 50 pesquisadores no mundo que saibam como construir sistemas no nível de GPT-4 ou Claude 2
      • Diante dessa realidade, a boa notícia é que tarefas que antes exigiam anos de pesquisa fundamental e expertise sofisticada em ML agora podem ser concluídas em dias ou semanas por desenvolvedores convencionais que projetam sistemas de dados sobre LLMs pré-treinados poderosos
      • Produtos como Einstein GPT da Salesforce (AI CoPilot para Sales) e Intuit Assist (assistente financeiro baseado em IA generativa) foram construídos principalmente por equipes enxutas compostas por engenheiros de IA — isto é, engenheiros full stack tradicionais que trabalham no plano de dados da stack moderna de IA

Próximos passos

  • A stack moderna de IA está evoluindo rapidamente, e há vários avanços que devem continuar ao longo deste ano
  • As aplicações de IA de próxima geração estão pilotando RAG mais avançado
    • RAG reina hoje, mas essa abordagem não está livre de problemas
    • Muitas implementações ainda usam técnicas ingênuas de embedding e recuperação, incluindo chunks de documentos baseados em contagem de tokens, indexação ineficiente e algoritmos de ranking ineficazes
    • Há problemas como fragmentação de contexto, alucinações, raridade de entidades e recuperação ineficiente
    • Para resolver isso, arquiteturas de próxima geração estão testando RAG mais avançado: raciocínio Chain-Of-Thought, raciocínio Tree-Of-Thought, Reflexion e recuperação baseada em regras
  • Modelos menores ocuparão um papel maior na stack moderna de IA
    • À medida que builders de aplicações de IA se aprofundarem mais na stack moderna de IA, espera-se o aumento de modelos mais granulares e específicos para tarefas
    • Modelos ajustados para tarefas específicas devem se proliferar em áreas onde modelos proprietários maiores são difíceis de manejar ou caros demais
    • A infraestrutura para construir pipelines de ML e fazer ajuste fino se tornará extremamente importante nesta etapa, à medida que empresas criarem seus próprios modelos específicos para tarefas
    • As técnicas de quantização oferecidas por Ollama e ggml ajudam equipes a aproveitar ao máximo os ganhos de velocidade proporcionados por modelos menores
  • Estão surgindo novas ferramentas para observabilidade e avaliação de modelos
    • Durante a maior parte de 2023, logging e avaliação simplesmente não eram feitos, eram feitos manualmente ou com benchmarks acadêmicos, que são o ponto de partida da maioria das aplicações empresariais
    • Segundo uma pesquisa da Criteo, cerca de 70% das empresas que adotaram IA revisam os resultados com pessoas como principal técnica de avaliação, porque o risco é alto
    • Os clientes esperam resultados de alta qualidade — e têm razão em esperar isso —, e as empresas sabem bem que podem perder a confiança do cliente por causa de alucinações
    • Por isso, observabilidade e avaliação representam uma oportunidade importante para novas ferramentas
    • Já estão surgindo abordagens promissoras como Braintrust, Patronus, Log10 e AgentOps
  • A arquitetura migrará na direção de serverless
    • Assim como outros sistemas corporativos de dados, a stack moderna de IA está migrando para serverless ao longo do tempo
    • Aqui, distingue-se o serverless do tipo "máquina temporária" (por exemplo, funções lambda) do verdadeiro serverless com scale-to-zero (por exemplo, a arquitetura Neon para Postgres)
    • No caso do serverless com scale-to-zero, ao abstrair a infraestrutura, desenvolvedores reduzem a complexidade operacional da execução de aplicações, ganham maior velocidade de iteração, e as empresas passam a pagar apenas pela disponibilidade em vez da computação total provisionada, obtendo uma otimização significativa de recursos
    • O paradigma serverless será aplicado a todas as partes da stack moderna de IA
    • A Pinecone adotou essa abordagem como arquitetura moderna para computação vetorial
    • A Neon faz o mesmo para Postgres, a Momento para caching, e a Baseten e a Modal para inferência

6 comentários

 
hyeonseokoh94 2024-01-31

Texto bom e divertido.

 
galadbran 2024-01-30

https://pt.news.hada.io/topic?id=6658 Neon - Postgres serverless de código aberto

 
kaistj 2024-01-30

Espero que, em meio às mudanças no ambiente, surjam muitas novas oportunidades~
Em uma boa direção

 
dlehals2 2024-01-29

Será que existem só 30 milhões de desenvolvedores no mundo todo??

 
xguru 2024-01-29

Segundo o relatório da Evans Data Corporation, que é muito citado, seriam cerca de 26,3 milhões em 2022.
https://www.evansdata.com/press/viewRelease.php?pressID=339

Os desenvolvedores que usam o GitHub já passam de 100 milhões, mas acho difícil considerar que todos sejam desenvolvedores.
https://github.blog/2023-01-25-100-million-developers-and-counting/

 
dlehals2 2024-01-29

Entendi, é bem menos do que eu imaginava. Enquanto isso, fui pesquisar a população mundial e vi que são 7,8 bilhões de pessoas... nem sei quando aumentou tanto assim haha