Definição da stack moderna de IA
- Camada 1: Computação e modelos fundacionais - inclui os próprios modelos fundacionais e a infraestrutura para treinar, ajustar, otimizar e implantar modelos
- Camada 2: Dados - inclui a infraestrutura que conecta LLMs ao contexto apropriado dentro dos sistemas de dados corporativos, incluindo componentes centrais como pré-processamento de dados, ETL e pipelines de dados, bancos de dados vetoriais, armazenamentos de metadados e caches de contexto
- Camada 3: Implantação - inclui ferramentas que ajudam desenvolvedores a gerenciar e orquestrar aplicações de IA. Frameworks de agentes, gerenciamento de prompts, roteamento e orquestração de modelos
- Camada 4: Observabilidade - inclui soluções para monitorar o comportamento em tempo de execução dos LLMs e protegê-los contra ameaças
Nova curva de maturidade da IA
- A estrutura de mercado e as tecnologias que definem a stack moderna de IA estão evoluindo rapidamente, e seus principais componentes e líderes já começaram a surgir
- Antes dos LLMs, o desenvolvimento de ML era linear e "centrado no modelo", mas os LLMs mudaram isso para um foco "centrado no produto", permitindo que equipes sem expertise em ML integrem IA aos produtos
- À medida que a stack de IA amadurece, equipes de desenvolvimento tentam personalizar a experiência de IA com dados específicos da empresa ou do cliente
- Curva de maturidade da IA
- Etapa 1: Closed-source models only apenas modelos proprietários
- No início de 2023, o custo e o esforço de engenharia estavam concentrados principalmente no próprio modelo fundacional, com apenas customizações simples por cima dele, como prompt engineering e aprendizado como few-shot learning
- Grandes provedores de modelos proprietários, como OpenAI e Anthropic, ganharam tração inicial nessa etapa e se consolidaram como os primeiros vencedores da stack moderna de IA
- Etapa 2: Retrieval-augmented generation geração aumentada por recuperação
- O foco passa para a camada de dados, e não para a camada de modelos, como centro do esforço em aplicações de IA
- Em especial, a popularização de RAG exige uma infraestrutura de camada de dados mais robusta, como o banco de dados vetorial Pinecone e o mecanismo de pré-processamento de dados Unstructured
- A maioria das empresas e startups está atualmente nesta etapa
- Etapa 3: Hybrid model deployment implantação híbrida de modelos
- Empresas líderes como Typeface e Descript começaram a complementar o uso de modelos proprietários com open source para tarefas de grande escala específicas de domínio
- Fornecedores de implantação de modelos como Modal, Baseten e Fireworks começaram a ganhar tração significativa
- Etapa 4 ou além: Custom models modelos personalizados
- Ainda há poucas empresas sofisticadas o bastante ou com necessidade real de construir seus próprios modelos, mas no futuro devem aumentar os casos de uso em grandes empresas que desejam explorar a stack mais profundamente
- Empresas como Predibase e Lamini, que fornecem ferramentas para ajuste fino com eficiência de memória, incluindo quantização em 4 bits, QLoRA e paginação/offload de memória, ajudarão a viabilizar isso
Quatro princípios centrais de design para a nova stack de infraestrutura de IA
- A revolução da IA não está apenas impulsionando a demanda por uma nova stack de infraestrutura, mas também remodelando a forma como as empresas abordam o desenvolvimento de aplicações, os gastos com P&D e a composição de equipes
- Principais princípios de design:
- 1. A maior parte do gasto vai para inferência e treinamento
- No início da revolução dos LLMs, parecia que toda empresa seria capaz de treinar seu próprio modelo de linguagem de grande porte algum dia
- Modelos como o BloombergGPT, anunciado em março de 2023 — um LLM de 50b treinado especificamente com dados financeiros — pareciam antecipar uma enxurrada de LLMs corporativos e específicos de domínio
- Mas essa enxurrada não aconteceu
- Segundo uma pesquisa recente da Menlo Ventures sobre IA empresarial, quase 95% de todo o gasto com IA está sendo direcionado para runtime e pré-treinamento
- Essa proporção só se inverte em grandes provedores de modelos fundacionais, como a Anthropic. Na camada de aplicações, até mesmo builders sofisticados de IA, como a Writer, usam mais de 80% da computação em inferência, e não em treinamento
- 2. Vivemos em um mundo multi-modelo
- Nenhum modelo único pode "governar todos os modelos"
- 60% das empresas usam vários modelos e roteiam prompts para o modelo com melhor desempenho
- A abordagem multi-modelo elimina a dependência de um único modelo, oferece maior controle e reduz custos
- 3. RAG é a abordagem arquitetural dominante
- LLMs são excelentes motores de raciocínio, mas têm conhecimento limitado sobre domínios específicos e conhecimento corporativo
- Para criar experiências de IA úteis, as equipes estão implantando rapidamente técnicas de aumento de conhecimento, começando por retrieval-augmented generation (RAG)
- RAG dá uma "memória" específica da empresa ao modelo base por meio de bancos de dados vetoriais como o Pinecone
- Essa técnica está muito à frente de outras formas de customização atualmente em produção, como ajuste fino, low-rank adaptation ou adapters, que operam principalmente na camada de modelos, e não na camada de dados
- Essa tendência deve continuar, e espera-se que novas partes do plano de dados, incluindo mecanismos de pré-processamento de dados, como Cleanlab, e pipelines de ETL, como Unstructured, sejam incorporadas à arquitetura de runtime
- 4. Todo desenvolvedor agora é um desenvolvedor de IA
- Há 30 milhões de desenvolvedores no mundo, mas apenas 300 mil engenheiros de ML e 30 mil pesquisadores de ML
- Entre as pessoas que inovam na fronteira do ML, estima-se que existam apenas 50 pesquisadores no mundo que saibam como construir sistemas no nível de GPT-4 ou Claude 2
- Diante dessa realidade, a boa notícia é que tarefas que antes exigiam anos de pesquisa fundamental e expertise sofisticada em ML agora podem ser concluídas em dias ou semanas por desenvolvedores convencionais que projetam sistemas de dados sobre LLMs pré-treinados poderosos
- Produtos como Einstein GPT da Salesforce (AI CoPilot para Sales) e Intuit Assist (assistente financeiro baseado em IA generativa) foram construídos principalmente por equipes enxutas compostas por engenheiros de IA — isto é, engenheiros full stack tradicionais que trabalham no plano de dados da stack moderna de IA
Próximos passos
- A stack moderna de IA está evoluindo rapidamente, e há vários avanços que devem continuar ao longo deste ano
- As aplicações de IA de próxima geração estão pilotando RAG mais avançado
- RAG reina hoje, mas essa abordagem não está livre de problemas
- Muitas implementações ainda usam técnicas ingênuas de embedding e recuperação, incluindo chunks de documentos baseados em contagem de tokens, indexação ineficiente e algoritmos de ranking ineficazes
- Há problemas como fragmentação de contexto, alucinações, raridade de entidades e recuperação ineficiente
- Para resolver isso, arquiteturas de próxima geração estão testando RAG mais avançado: raciocínio Chain-Of-Thought, raciocínio Tree-Of-Thought, Reflexion e recuperação baseada em regras
- Modelos menores ocuparão um papel maior na stack moderna de IA
- À medida que builders de aplicações de IA se aprofundarem mais na stack moderna de IA, espera-se o aumento de modelos mais granulares e específicos para tarefas
- Modelos ajustados para tarefas específicas devem se proliferar em áreas onde modelos proprietários maiores são difíceis de manejar ou caros demais
- A infraestrutura para construir pipelines de ML e fazer ajuste fino se tornará extremamente importante nesta etapa, à medida que empresas criarem seus próprios modelos específicos para tarefas
- As técnicas de quantização oferecidas por Ollama e ggml ajudam equipes a aproveitar ao máximo os ganhos de velocidade proporcionados por modelos menores
- Estão surgindo novas ferramentas para observabilidade e avaliação de modelos
- Durante a maior parte de 2023, logging e avaliação simplesmente não eram feitos, eram feitos manualmente ou com benchmarks acadêmicos, que são o ponto de partida da maioria das aplicações empresariais
- Segundo uma pesquisa da Criteo, cerca de 70% das empresas que adotaram IA revisam os resultados com pessoas como principal técnica de avaliação, porque o risco é alto
- Os clientes esperam resultados de alta qualidade — e têm razão em esperar isso —, e as empresas sabem bem que podem perder a confiança do cliente por causa de alucinações
- Por isso, observabilidade e avaliação representam uma oportunidade importante para novas ferramentas
- Já estão surgindo abordagens promissoras como Braintrust, Patronus, Log10 e AgentOps
- A arquitetura migrará na direção de serverless
- Assim como outros sistemas corporativos de dados, a stack moderna de IA está migrando para serverless ao longo do tempo
- Aqui, distingue-se o serverless do tipo "máquina temporária" (por exemplo, funções lambda) do verdadeiro serverless com scale-to-zero (por exemplo, a arquitetura Neon para Postgres)
- No caso do serverless com scale-to-zero, ao abstrair a infraestrutura, desenvolvedores reduzem a complexidade operacional da execução de aplicações, ganham maior velocidade de iteração, e as empresas passam a pagar apenas pela disponibilidade em vez da computação total provisionada, obtendo uma otimização significativa de recursos
- O paradigma serverless será aplicado a todas as partes da stack moderna de IA
- A Pinecone adotou essa abordagem como arquitetura moderna para computação vetorial
- A Neon faz o mesmo para Postgres, a Momento para caching, e a Baseten e a Modal para inferência
6 comentários
Texto bom e divertido.
https://pt.news.hada.io/topic?id=6658 Neon - Postgres serverless de código aberto
Espero que, em meio às mudanças no ambiente, surjam muitas novas oportunidades~
Em uma boa direção
Será que existem só 30 milhões de desenvolvedores no mundo todo??
Segundo o relatório da Evans Data Corporation, que é muito citado, seriam cerca de 26,3 milhões em 2022.
https://www.evansdata.com/press/viewRelease.php?pressID=339
Os desenvolvedores que usam o GitHub já passam de 100 milhões, mas acho difícil considerar que todos sejam desenvolvedores.
https://github.blog/2023-01-25-100-million-developers-and-counting/
Entendi, é bem menos do que eu imaginava. Enquanto isso, fui pesquisar a população mundial e vi que são 7,8 bilhões de pessoas... nem sei quando aumentou tanto assim haha