A stack moderna de IA: princípios de design para o futuro da arquitetura de IA empresarial

xguru · 2024-01-29T11:05:01+09:00

Definição da stack moderna de IA Camada 1: Computação e modelos fundacionais - inclui os próprios modelos fundacionais e a infraestrutura para treinar, ajustar, otimizar e implantar modelos Camada 2: Dados - inclui a infraestrutura que conecta LLMs ao contexto apropriado dentro dos sistemas de dados corporativos, incluindo componentes centrais como pré-processamento de dados, ETL e pipelines de dados, bancos de dados vetoriais, armazenamentos de metadados e caches de contexto Camada 3: Implantação - inclui ferramentas que ajudam desenvolvedores a gerenciar e orquestrar aplicações de IA. Frameworks de agentes, gerenciamento de prompts, roteamento e orquestração de modelos Camada 4: Observabilidade - inclui soluções para monitorar o comportamento em tempo de execução dos LLMs e protegê-los contra ameaças Nova curva de maturidade da IA A estrutura de mercado e as tecnologias que definem a stack moderna de IA estão evoluindo rapidamente, e seus principais componentes e líderes já começaram a surgir Antes dos LLMs, o desenvolvimento de ML era linear e "centrado no modelo", mas os LLMs mudaram isso para um foco "centrado no produto", permitindo que equipes sem expertise em ML integrem IA aos produtos À medida que a stack de IA amadurece, equipes de desenvolvimento tentam personalizar a experiência de IA com dados específicos da empresa ou do cliente Curva de maturidade da IA Etapa 1: Closed-source models only apenas modelos proprietários No início de 2023, o custo e o esforço de engenharia estavam concentrados principalmente no próprio modelo fundacional, com apenas customizações simples por cima dele, como prompt engineering e aprendizado como few-shot learning Grandes provedores de modelos proprietários, como OpenAI e Anthropic, ganharam tração inicial nessa etapa e se consolidaram como os primeiros vencedores da stack moderna de IA Etapa 2: Retrieval-augmented generation geração aumentada por recuperação O foco passa para a camada de dados, e não para a camada de modelos, como centro do esforço em aplicações de IA Em especial, a popularização de RAG exige uma infraestrutura de camada de dados mais robusta, como o banco de dados vetorial Pinecone e o mecanismo de pré-processamento de dados Unstructured A maioria das empresas e startups está atualmente nesta etapa Etapa 3: Hybrid model deployment implantação híbrida de modelos Empresas líderes como Typeface e Descript começaram a complementar o uso de modelos proprietários com open source para tarefas de grande escala específicas de domínio Fornecedores de implantação de modelos como Modal, Baseten e Fireworks começaram a ganhar tração significativa Etapa 4 ou além: Custom models modelos personalizados Ainda há poucas empresas sofisticadas o bastante ou com necessidade real de construir seus próprios modelos, mas no futuro devem aumentar os casos de uso em grandes empresas que desejam explorar a stack mais profundamente Empresas como Predibase e Lamini, que fornecem ferramentas para ajuste fino com eficiência de memória, incluindo quantização em 4 bits, QLoRA e paginação/offload de memória, ajudarão a viabilizar isso Quatro princípios centrais de design para a nova stack de infraestrutura de IA A revolução da IA não está apenas impulsionando a demanda por uma nova stack de infraestrutura, mas também remodelando a forma como as empresas abordam o desenvolvimento de aplicações, os gastos com P&D e a composição de equipes Principais princípios de design: 1. A maior parte do gasto vai para inferência e treinamento No início da revolução dos LLMs, parecia que toda empresa seria capaz de treinar seu próprio modelo de linguagem de grande porte algum dia Modelos como o BloombergGPT, anunciado em março de 2023 — um LLM de 50b treinado especificamente com dados financeiros — pareciam antecipar uma enxurrada de LLMs corporativos e específicos de domínio Mas essa enxurrada não aconteceu Segundo uma pesquisa recente da Menlo Ventures sobre IA empresarial, quase 95% de todo o gasto com IA está sendo direcionado para runtime e pré-treinamento Essa proporção só se inverte em grandes provedores de modelos fundacionais, como a Anthropic. Na camada de aplicações, até mesmo builders sofisticados de IA, como a Writer, usam mais de 80% da computação em inferência, e não em treinamento 2. Vivemos em um mundo multi-modelo Nenhum modelo único pode "governar todos os modelos" 60% das empresas usam vários modelos e roteiam prompts para o modelo com melhor desempenho A abordagem multi-modelo elimina a dependência de um único modelo, oferece maior controle e reduz custos 3. RAG é a abordagem arquitetural dominante LLMs são excelentes motores de raciocínio, mas têm conhecimento limitado sobre domínios específicos e conhecimento corporativo Para criar experiências de IA úteis, as equipes estão implantando rapidamente técnicas de aumento de conhecimento, começando por retrieval-augmented generation (RAG) RAG dá uma "memória" específica da empresa ao modelo base por meio de bancos de dados vetoriais como o Pinecone Essa técnica está muito à frente de outras formas de customização atualmente em produção, como ajuste fino, low-rank adaptation ou adapters, que operam principalmente na camada de modelos, e não na camada de dados Essa tendência deve continuar, e espera-se que novas partes do plano de dados, incluindo mecanismos de pré-processamento de dados, como Cleanlab, e pipelines de ETL, como Unstructured, sejam incorporadas à arquitetura de runtime 4. Todo desenvolvedor agora é um desenvolvedor de IA Há 30 milhões de desenvolvedores no mundo, mas apenas 300 mil engenheiros de ML e 30 mil pesquisadores de ML Entre as pessoas que inovam na fronteira do ML, estima-se que existam apenas 50 pesquisadores no mundo que saibam como construir sistemas no nível de GPT-4 ou Claude 2 Diante dessa realidade, a boa notícia é que tarefas que antes exigiam anos de pesquisa fundamental e expertise sofisticada em ML agora podem ser concluídas em dias ou semanas por desenvolvedores convencionais que projetam sistemas de dados sobre LLMs pré-treinados poderosos Produtos como Einstein GPT da Salesforce (AI CoPilot para Sales) e Intuit Assist (assistente financeiro baseado em IA generativa) foram construídos principalmente por equipes enxutas compostas por engenheiros de IA — isto é, engenheiros full stack tradicionais que trabalham no plano de dados da stack moderna de IA Próximos passos A stack moderna de IA está evoluindo rapidamente, e há vários avanços que devem continuar ao longo deste ano As aplicações de IA de próxima geração estão pilotando RAG mais avançado RAG reina hoje, mas essa abordagem não está livre de problemas Muitas implementações ainda usam técnicas ingênuas de embedding e recuperação, incluindo chunks de documentos baseados em contagem de tokens, indexação ineficiente e algoritmos de ranking ineficazes Há problemas como fragmentação de contexto, alucinações, raridade de entidades e recuperação ineficiente Para resolver isso, arquiteturas de próxima geração estão testando RAG mais avançado: raciocínio Chain-Of-Thought, raciocínio Tree-Of-Thought, Reflexion e recuperação baseada em regras Modelos menores ocuparão um papel maior na stack moderna de IA À medida que builders de aplicações de IA se aprofundarem mais na stack moderna de IA, espera-se o aumento de modelos mais granulares e específicos para tarefas Modelos ajustados para tarefas específicas devem se proliferar em áreas onde modelos proprietários maiores são difíceis de manejar ou caros demais A infraestrutura para construir pipelines de ML e fazer ajuste fino se tornará extremamente importante nesta etapa, à medida que empresas criarem seus próprios modelos específicos para tarefas As técnicas de quantização oferecidas por Ollama e ggml ajudam equipes a aproveitar ao máximo os ganhos de velocidade proporcionados por modelos menores Estão surgindo novas ferramentas para observabilidade e avaliação de modelos Durante a maior parte de 2023, logging e avaliação simplesmente não eram feitos, eram feitos manualmente ou com benchmarks acadêmicos, que são o ponto de partida da maioria das aplicações empresariais Segundo uma pesquisa da Criteo, cerca de 70% das empresas que adotaram IA revisam os resultados com pessoas como principal técnica de avaliação, porque o risco é alto Os clientes esperam resultados de alta qualidade — e têm razão em esperar isso —, e as empresas sabem bem que podem perder a confiança do cliente por causa de alucinações Por isso, observabilidade e avaliação representam uma oportunidade importante para novas ferramentas Já estão surgindo abordagens promissoras como Braintrust, Patronus, Log10 e AgentOps A arquitetura migrará na direção de serverless Assim como outros sistemas corporativos de dados, a stack moderna de IA está migrando para serverless ao longo do tempo Aqui, distingue-se o serverless do tipo "máquina temporária" (por exemplo, funções lambda) do verdadeiro serverless com scale-to-zero (por exemplo, a arquitetura Neon para Postgres) No caso do serverless com scale-to-zero, ao abstrair a infraestrutura, desenvolvedores reduzem a complexidade operacional da execução de aplicações, ganham maior velocidade de iteração, e as empresas passam a pagar apenas pela disponibilidade em vez da computação total provisionada, obtendo uma otimização significativa de recursos O paradigma serverless será aplicado a todas as partes da stack moderna de IA A Pinecone adotou essa abordagem como arquitetura moderna para computação vetorial A Neon faz o mesmo para Postgres, a Momento para caching, e a Baseten e a Modal para inferência

(menlovc.com)

28 pontos por xguru 2024-01-29 | 6 comentários | Compartilhar no WhatsApp

Definição da stack moderna de IA

Camada 1: Computação e modelos fundacionais - inclui os próprios modelos fundacionais e a infraestrutura para treinar, ajustar, otimizar e implantar modelos
Camada 2: Dados - inclui a infraestrutura que conecta LLMs ao contexto apropriado dentro dos sistemas de dados corporativos, incluindo componentes centrais como pré-processamento de dados, ETL e pipelines de dados, bancos de dados vetoriais, armazenamentos de metadados e caches de contexto
Camada 3: Implantação - inclui ferramentas que ajudam desenvolvedores a gerenciar e orquestrar aplicações de IA. Frameworks de agentes, gerenciamento de prompts, roteamento e orquestração de modelos
Camada 4: Observabilidade - inclui soluções para monitorar o comportamento em tempo de execução dos LLMs e protegê-los contra ameaças

Nova curva de maturidade da IA

A estrutura de mercado e as tecnologias que definem a stack moderna de IA estão evoluindo rapidamente, e seus principais componentes e líderes já começaram a surgir
Antes dos LLMs, o desenvolvimento de ML era linear e "centrado no modelo", mas os LLMs mudaram isso para um foco "centrado no produto", permitindo que equipes sem expertise em ML integrem IA aos produtos
À medida que a stack de IA amadurece, equipes de desenvolvimento tentam personalizar a experiência de IA com dados específicos da empresa ou do cliente
Curva de maturidade da IA
- Etapa 1: Closed-source models only apenas modelos proprietários
  - No início de 2023, o custo e o esforço de engenharia estavam concentrados principalmente no próprio modelo fundacional, com apenas customizações simples por cima dele, como prompt engineering e aprendizado como few-shot learning
  - Grandes provedores de modelos proprietários, como OpenAI e Anthropic, ganharam tração inicial nessa etapa e se consolidaram como os primeiros vencedores da stack moderna de IA
- Etapa 2: Retrieval-augmented generation geração aumentada por recuperação
  - O foco passa para a camada de dados, e não para a camada de modelos, como centro do esforço em aplicações de IA
  - Em especial, a popularização de RAG exige uma infraestrutura de camada de dados mais robusta, como o banco de dados vetorial Pinecone e o mecanismo de pré-processamento de dados Unstructured
  - A maioria das empresas e startups está atualmente nesta etapa
- Etapa 3: Hybrid model deployment implantação híbrida de modelos
  - Empresas líderes como Typeface e Descript começaram a complementar o uso de modelos proprietários com open source para tarefas de grande escala específicas de domínio
  - Fornecedores de implantação de modelos como Modal, Baseten e Fireworks começaram a ganhar tração significativa
- Etapa 4 ou além: Custom models modelos personalizados
  - Ainda há poucas empresas sofisticadas o bastante ou com necessidade real de construir seus próprios modelos, mas no futuro devem aumentar os casos de uso em grandes empresas que desejam explorar a stack mais profundamente
  - Empresas como Predibase e Lamini, que fornecem ferramentas para ajuste fino com eficiência de memória, incluindo quantização em 4 bits, QLoRA e paginação/offload de memória, ajudarão a viabilizar isso
  Publicidade

Quatro princípios centrais de design para a nova stack de infraestrutura de IA

A revolução da IA não está apenas impulsionando a demanda por uma nova stack de infraestrutura, mas também remodelando a forma como as empresas abordam o desenvolvimento de aplicações, os gastos com P&D e a composição de equipes
Principais princípios de design:
- 1. A maior parte do gasto vai para inferência e treinamento
  - No início da revolução dos LLMs, parecia que toda empresa seria capaz de treinar seu próprio modelo de linguagem de grande porte algum dia
  - Modelos como o BloombergGPT, anunciado em março de 2023 — um LLM de 50b treinado especificamente com dados financeiros — pareciam antecipar uma enxurrada de LLMs corporativos e específicos de domínio
  - Mas essa enxurrada não aconteceu
  - Segundo uma pesquisa recente da Menlo Ventures sobre IA empresarial, quase 95% de todo o gasto com IA está sendo direcionado para runtime e pré-treinamento
  - Essa proporção só se inverte em grandes provedores de modelos fundacionais, como a Anthropic. Na camada de aplicações, até mesmo builders sofisticados de IA, como a Writer, usam mais de 80% da computação em inferência, e não em treinamento
- 2. Vivemos em um mundo multi-modelo
  - Nenhum modelo único pode "governar todos os modelos"
  - 60% das empresas usam vários modelos e roteiam prompts para o modelo com melhor desempenho
  - A abordagem multi-modelo elimina a dependência de um único modelo, oferece maior controle e reduz custos
  Publicidade
- 3. RAG é a abordagem arquitetural dominante
  - LLMs são excelentes motores de raciocínio, mas têm conhecimento limitado sobre domínios específicos e conhecimento corporativo
  - Para criar experiências de IA úteis, as equipes estão implantando rapidamente técnicas de aumento de conhecimento, começando por retrieval-augmented generation (RAG)
  - RAG dá uma "memória" específica da empresa ao modelo base por meio de bancos de dados vetoriais como o Pinecone
  - Essa técnica está muito à frente de outras formas de customização atualmente em produção, como ajuste fino, low-rank adaptation ou adapters, que operam principalmente na camada de modelos, e não na camada de dados
  - Essa tendência deve continuar, e espera-se que novas partes do plano de dados, incluindo mecanismos de pré-processamento de dados, como Cleanlab, e pipelines de ETL, como Unstructured, sejam incorporadas à arquitetura de runtime
- 4. Todo desenvolvedor agora é um desenvolvedor de IA
  - Há 30 milhões de desenvolvedores no mundo, mas apenas 300 mil engenheiros de ML e 30 mil pesquisadores de ML
  - Entre as pessoas que inovam na fronteira do ML, estima-se que existam apenas 50 pesquisadores no mundo que saibam como construir sistemas no nível de GPT-4 ou Claude 2
  - Diante dessa realidade, a boa notícia é que tarefas que antes exigiam anos de pesquisa fundamental e expertise sofisticada em ML agora podem ser concluídas em dias ou semanas por desenvolvedores convencionais que projetam sistemas de dados sobre LLMs pré-treinados poderosos
  - Produtos como Einstein GPT da Salesforce (AI CoPilot para Sales) e Intuit Assist (assistente financeiro baseado em IA generativa) foram construídos principalmente por equipes enxutas compostas por engenheiros de IA — isto é, engenheiros full stack tradicionais que trabalham no plano de dados da stack moderna de IA

Próximos passos

A stack moderna de IA está evoluindo rapidamente, e há vários avanços que devem continuar ao longo deste ano
As aplicações de IA de próxima geração estão pilotando RAG mais avançado
- RAG reina hoje, mas essa abordagem não está livre de problemas
- Muitas implementações ainda usam técnicas ingênuas de embedding e recuperação, incluindo chunks de documentos baseados em contagem de tokens, indexação ineficiente e algoritmos de ranking ineficazes
- Há problemas como fragmentação de contexto, alucinações, raridade de entidades e recuperação ineficiente
- Para resolver isso, arquiteturas de próxima geração estão testando RAG mais avançado: raciocínio Chain-Of-Thought, raciocínio Tree-Of-Thought, Reflexion e recuperação baseada em regras
Publicidade
Modelos menores ocuparão um papel maior na stack moderna de IA
- À medida que builders de aplicações de IA se aprofundarem mais na stack moderna de IA, espera-se o aumento de modelos mais granulares e específicos para tarefas
- Modelos ajustados para tarefas específicas devem se proliferar em áreas onde modelos proprietários maiores são difíceis de manejar ou caros demais
- A infraestrutura para construir pipelines de ML e fazer ajuste fino se tornará extremamente importante nesta etapa, à medida que empresas criarem seus próprios modelos específicos para tarefas
- As técnicas de quantização oferecidas por Ollama e ggml ajudam equipes a aproveitar ao máximo os ganhos de velocidade proporcionados por modelos menores
Estão surgindo novas ferramentas para observabilidade e avaliação de modelos
- Durante a maior parte de 2023, logging e avaliação simplesmente não eram feitos, eram feitos manualmente ou com benchmarks acadêmicos, que são o ponto de partida da maioria das aplicações empresariais
- Segundo uma pesquisa da Criteo, cerca de 70% das empresas que adotaram IA revisam os resultados com pessoas como principal técnica de avaliação, porque o risco é alto
- Os clientes esperam resultados de alta qualidade — e têm razão em esperar isso —, e as empresas sabem bem que podem perder a confiança do cliente por causa de alucinações
- Por isso, observabilidade e avaliação representam uma oportunidade importante para novas ferramentas
- Já estão surgindo abordagens promissoras como Braintrust, Patronus, Log10 e AgentOps
A arquitetura migrará na direção de serverless
- Assim como outros sistemas corporativos de dados, a stack moderna de IA está migrando para serverless ao longo do tempo
- Aqui, distingue-se o serverless do tipo "máquina temporária" (por exemplo, funções lambda) do verdadeiro serverless com scale-to-zero (por exemplo, a arquitetura Neon para Postgres)
- No caso do serverless com scale-to-zero, ao abstrair a infraestrutura, desenvolvedores reduzem a complexidade operacional da execução de aplicações, ganham maior velocidade de iteração, e as empresas passam a pagar apenas pela disponibilidade em vez da computação total provisionada, obtendo uma otimização significativa de recursos
- O paradigma serverless será aplicado a todas as partes da stack moderna de IA
- A Pinecone adotou essa abordagem como arquitetura moderna para computação vetorial
- A Neon faz o mesmo para Postgres, a Momento para caching, e a Baseten e a Modal para inferência

6 comentários

hyeonseokoh94 2024-01-31

Texto bom e divertido.

galadbran 2024-01-30

https://pt.news.hada.io/topic?id=6658 Neon - Postgres serverless de código aberto

kaistj 2024-01-30

Espero que, em meio às mudanças no ambiente, surjam muitas novas oportunidades~
Em uma boa direção

dlehals2 2024-01-29

Será que existem só 30 milhões de desenvolvedores no mundo todo??

xguru 2024-01-29

Segundo o relatório da Evans Data Corporation, que é muito citado, seriam cerca de 26,3 milhões em 2022.
https://www.evansdata.com/press/viewRelease.php?pressID=339

Os desenvolvedores que usam o GitHub já passam de 100 milhões, mas acho difícil considerar que todos sejam desenvolvedores.
https://github.blog/2023-01-25-100-million-developers-and-counting/