O ato o1 da IA generativa — a era do raciocínio de agentes começa

xguru · 2024-10-21T11:06:01+09:00

À medida que a revolução da IA generativa entra em seu segundo ano, a pesquisa está evoluindo do "pensamento rápido" para o "pensamento lento" "Pensamento rápido" significa respostas rápidas pré-treinadas, enquanto "pensamento lento" significa fazer reasoning no momento da inferência Essa evolução está dando origem a um novo tipo de aplicação de agentes À medida que a camada de base do mercado de IA generativa se estabiliza, um pequeno número de grandes players como Microsoft/OpenAI, AWS/Anthropic, Meta e Google/DeepMind está liderando o mercado Apenas grandes empresas com motores econômicos e capital maciço permanecem na disputa A própria estrutura de mercado está se consolidando, e a previsão do próximo token ficará barata e abundante Com a estabilização da estrutura do mercado de LLMs, surge uma nova fronteira O foco está no desenvolvimento e na expansão de uma camada de raciocínio em que o pensamento de "Sistema 2" tem prioridade Inspirada em modelos como o AlphaGo, essa camada busca dar aos sistemas de IA capacidades de raciocínio cuidadoso, resolução de problemas e cognição, indo além da simples correspondência de padrões Novas arquiteturas cognitivas e interfaces de usuário estão moldando a forma como essa capacidade de raciocínio é entregue aos usuários e como eles interagem com ela Strawberry Fields Forever A atualização de modelo mais importante de 2024 é o o1 da OpenAI (antes conhecido como Q* e também chamado de Strawberry) Isso não significa apenas que a OpenAI voltou ao topo dos rankings de qualidade de modelos, mas também que trouxe uma melhoria significativa para a arquitetura atual dominante Mais especificamente, é o primeiro modelo com verdadeira "capacidade geral de raciocínio" alcançada por meio de computação em tempo de inferência Modelos pré-treinados vs. computação em tempo de inferência Modelos pré-treinados realizam previsão do próximo token usando enormes volumes de dados Uma propriedade emergente da escala é o raciocínio básico, mas esse raciocínio é muito limitado Computação em tempo de inferência significa pedir ao modelo que pare e pense antes de fornecer uma resposta Isso exige mais computação no momento da inferência A parte de "parar e pensar" é justamente o raciocínio Comparação entre AlphaGo e LLMs Em março de 2016, em Seul, o AlphaGo enfrentou a lenda do baduk Lee Sedol e criou um dos momentos mais importantes da história do deep learning O AlphaGo mostrou ao mundo uma IA "que pensa", indo além de apenas imitar padrões Diferenças entre o AlphaGo e sistemas anteriores de IA para jogos Assim como os LLMs, o AlphaGo foi pré-treinado para imitar especialistas humanos por meio de uma base de cerca de 30 milhões de jogadas de partidas anteriores e de autojogo Porém, em vez de fornecer uma reação imediata vinda de um modelo pré-treinado, o AlphaGo dedicava tempo para parar e pensar Durante a inferência, o AlphaGo executava buscas ou simulações sobre uma ampla gama de cenários futuros potenciais, avaliava esses cenários e então respondia com o cenário (ou resposta) de maior valor esperado Quanto mais tempo era dado ao AlphaGo, melhor ele performava Sem nenhuma computação em tempo de inferência, o AlphaGo não conseguiria vencer os melhores jogadores humanos Por que é difícil replicar o AlphaGo em LLMs É difícil construir uma função de valor (value function) para avaliar respostas No baduk, é possível simular a partida até o fim, verificar quem vence e então calcular o valor esperado da próxima jogada Em programação, é possível testar o código e ver se ele funciona Mas rascunhos de ensaios, roteiros de viagem ou resumos dos termos-chave de documentos longos são difíceis de avaliar Esse é o motivo de o raciocínio ser difícil com as metodologias atuais e de o Strawberry ser relativamente forte em domínios mais próximos da lógica (como programação, matemática e ciência), mas não em áreas abertas e não estruturadas (como escrita) Pesquisa para melhorar a capacidade de raciocínio do modelo Strawberry A implementação real do Strawberry é fortemente protegida, mas a ideia central está relacionada ao aprendizado por reforço sobre cadeias de pensamento geradas pelo modelo Auditar as cadeias de pensamento do modelo sugere que algo fundamental e interessante, semelhante à forma como humanos pensam e raciocinam, está acontecendo Por exemplo, o o1 está mostrando a capacidade de voltar atrás quando fica travado, como uma propriedade emergente do escalonamento em tempo de inferência Também demonstra capacidade de pensar sobre problemas como humanos (por exemplo, visualizar pontos em uma esfera para resolver um problema de geometria) e de pensar sobre problemas de novas formas (por exemplo, resolver problemas de competições de programação de maneira diferente dos humanos) As equipes de pesquisa têm muitas ideias para avançar a computação em tempo de inferência, como novos métodos para calcular funções de recompensa e novas formas de reduzir a lacuna entre generator e verifier, a fim de melhorar a capacidade de raciocínio dos modelos Em outras palavras, o aprendizado por reforço profundo voltou ao centro das atenções, e isso está tornando possível uma nova camada de raciocínio Salto do Sistema 1 para o pensamento de Sistema 2 O salto de respostas instintivas pré-treinadas ("Sistema 1") para um raciocínio mais profundo e cuidadoso ("Sistema 2") é a próxima fronteira da IA Não basta que o modelo simplesmente saiba algo O modelo precisa parar por um momento, avaliar e raciocinar para tomar decisões em tempo real O pré-treinamento corresponde à camada do Sistema 1 Seja aprendendo milhões de jogadas de baduk no AlphaGo ou petabytes de texto em escala de internet em LLMs, o objetivo do pré-treinamento é imitar padrões como o jogo humano ou a linguagem humana Porém, imitação, por mais poderosa que seja, não é raciocínio verdadeiro Em especial, ela não consegue pensar adequadamente em situações complexas e novas fora do conjunto de dados de treinamento O pensamento de Sistema 2 é o foco da pesquisa de IA de ponta Quando o modelo "para e pensa", ele não está apenas gerando padrões aprendidos nem despejando previsões com base em dados passados Ele gera um conjunto de possibilidades, considera resultados potenciais e toma decisões com base em raciocínio Uso apropriado do pensamento de Sistema 1 e Sistema 2 Em muitas tarefas, o pensamento de Sistema 1 é suficiente (por exemplo, pensar por mais tempo não ajuda a responder qual é a capital do Butão) Porém, em problemas mais complexos, como avanços em matemática ou biologia, respostas rápidas e instintivas são insuficientes Esses avanços exigem pensamento profundo, resolução criativa de problemas e, acima de tudo, tempo O mesmo vale para a IA. Para resolver os problemas mais difíceis e significativos, ela precisa ir além de respostas rápidas dentro do conjunto de dados de treino e dedicar tempo para produzir o raciocínio ponderado que define o progresso humano Nova lei de escala: o início da corrida pelo raciocínio O insight mais importante do artigo do o1 da OpenAI é que surgiu uma nova lei de escala A lei de escala do pré-treinamento de LLMs O pré-treinamento de LLMs segue uma lei de escala bem compreendida Quanto mais computação e dados são usados no pré-treinamento do modelo, melhor é o desempenho A nova lei de escala da computação em tempo de inferência O artigo do o1 abriu uma nova dimensão para escalar computação Quanto mais tempo de inferência (ou computação em "tempo de teste") for dado ao modelo, mais sua capacidade de raciocínio melhora O que acontece se os modelos puderem pensar por horas, dias ou décadas? Será que eles poderiam resolver a hipótese de Riemann? Poderiam responder à última pergunta de Asimov? A transição de grandes clusters de pré-treinamento para a nuvem de inferência Essa mudança vai nos levar do mundo dos grandes clusters de pré-treinamento para o da nuvem de inferência A nuvem de inferência é um ambiente capaz de escalar computação dinamicamente de acordo com a complexidade da tarefa Será que um único modelo vai dominar tudo? O que acontece à medida que OpenAI, Anthropic, Google, Meta e outras expandem a camada de raciocínio e desenvolvem máquinas de raciocínio mais poderosas? Será que um único modelo vai dominar tudo? Uma hipótese era que uma empresa de modelo único ficaria poderosa demais e acabaria absorvendo todas as outras aplicações Até agora, essa previsão se mostrou errada em dois aspectos Primeiro, há muitos concorrentes na camada de modelos, competindo sem parar por capacidades SOTA É possível que alguém consiga melhoria contínua de si mesmo por meio de autoaprendizado amplo em vários domínios e decole, mas ainda não há evidências disso Em vez disso, a camada de modelos é um campo de competição feroz, e o preço por token do GPT-4 caiu 98% desde o último Developer Day Segundo, os modelos estão tendo dificuldade para avançar para a camada de aplicações Com exceção do ChatGPT, os modelos em geral falharam em se firmar como produtos revolucionários na camada de aplicações Porque o mundo real é complexo Pesquisadores brilhantes não querem entender fluxos de trabalho detalhados de ponta a ponta para todas as funções possíveis em todos os mercados verticais possíveis É atraente e economicamente racional que os pesquisadores parem na API e deixem a complexidade do mundo real para o ecossistema de desenvolvedores Isso é uma boa notícia para a camada de aplicações O mundo real complexo: a necessidade de arquiteturas cognitivas personalizadas A forma como um cientista planeja e executa ações para atingir seus objetivos é muito diferente da forma como um engenheiro de software trabalha E até a forma como engenheiros de software trabalham varia de uma empresa para outra Embora os laboratórios estejam expandindo ainda mais os limites do raciocínio horizontal de uso geral, ainda é necessário raciocínio específico de aplicação ou de domínio para entregar agentes de IA realmente úteis O mundo real complexo exige muito raciocínio específico de domínio e de aplicação, algo que não pode ser codificado de forma eficiente em um modelo geral O surgimento da arquitetura cognitiva Arquitetura cognitiva se refere à forma de pensar do sistema, ou seja, ao fluxo de código e interações com modelos que recebe a entrada do usuário e executa ações ou gera respostas No caso da Factory, por exemplo, cada produto “droid” tem uma arquitetura cognitiva personalizada que imita a forma de pensar humana para resolver tarefas específicas, como revisar pull requests ou elaborar e executar um plano de migração para atualizações de serviços backend-to-backend Os droids da Factory analisam todas as dependências, propõem alterações de código relevantes, adicionam testes unitários e envolvem humanos para revisão Depois, após a aprovação, executam as mudanças em todos os arquivos do ambiente de desenvolvimento e, se todos os testes passarem, fazem o merge do código Isso se parece com a maneira humana de pensar, composta por uma série de tarefas distintas, e não por uma única resposta generalizada e de caixa-preta O que está acontecendo nos apps? Se você quer começar um negócio de IA, qual camada deve mirar? Para competir na camada de infraestrutura, é preciso vencer a NVIDIA e os hyperscalers Para competir na camada de modelos, é preciso vencer a OpenAI e Mark Zuckerberg Para competir na camada de aplicações, é preciso vencer a TI corporativa e os integradores globais de sistemas Competir na camada de aplicações parece ser o caminho mais viável A oportunidade na camada de aplicações Modelos fundacionais parecem mágicos, mas também são complexos Empresas tradicionais não conseguem lidar com caixa-preta, alucinações e fluxos de trabalho improvisados Consumidores veem um prompt em branco e não sabem o que pedir Essa é a oportunidade da camada de aplicações Há dois anos, muitas empresas da camada de aplicações eram criticadas por serem “apenas wrappers em cima do GPT-3” Hoje, esses wrappers se mostraram uma das poucas formas saudáveis de construir valor sustentável O que começou como “wrapper” evoluiu para “arquitetura cognitiva” Características das empresas de IA da camada de aplicações Não se trata simplesmente de colocar uma UI em cima de um modelo fundacional Em geral, elas têm arquiteturas cognitivas sofisticadas, que incluem: vários modelos fundacionais com algum tipo de mecanismo de roteamento no topo bancos de dados vetoriais e/ou de grafos para RAG guardrails para garantir conformidade lógica de aplicação que imita formas de raciocínio por meio de workflows Service-as-a-Software A transição para a nuvem foi “Software-as-a-Service”. Empresas de software se tornaram provedoras de serviços em nuvem, e isso representou uma oportunidade de US$ 350 bilhões Graças ao raciocínio de agentes, a transição da IA é “Service-as-a-Software”. Empresas de software estão transformando trabalho em software Isso significa que o mercado-alvo não é o mercado de software, mas o mercado trilionário de serviços O que significa vender trabalho A empresa Sierra é um bom exemplo Empresas B2C colocam a Sierra em seus sites para conversar com clientes O job-to-be-done é resolver o problema do cliente A Sierra cobra por problema resolvido Não existe algo como “seat”. Há um trabalho a ser feito, a Sierra faz esse trabalho e cobra de acordo com isso Essa é a verdadeira estrela-guia de muitas empresas de IA A vantagem da Sierra e os desafios das outras empresas A Sierra tem a vantagem de um modo de falha elegante: escalonamento para um atendente humano Nem todas as empresas têm essa sorte O novo padrão é primeiro implantar com human-in-the-loop e depois usar essa experiência para conquistar oportunidades de implantação em piloto automático, com human-out-of-the-loop O GitHub Copilot é um bom exemplo disso Um novo tipo de aplicação agente está começando a surgir As novas capacidades de raciocínio da Generative AI estão começando a dar origem a um novo tipo de aplicação agente Curiosamente, essas empresas da camada de aplicações têm uma cara diferente das antigas empresas de nuvem: Empresas de nuvem miravam receita de software, enquanto empresas de IA miram receita de serviços Empresas de nuvem vendiam software ($/seat), enquanto empresas de IA vendem trabalho ($/resultado) Empresas de nuvem preferiam uma abordagem bottom-up com distribuição sem atrito, enquanto empresas de IA estão adotando cada vez mais uma abordagem top-down com modelos de entrega high-touch e high-trust Exemplos de aplicações agentes surgindo em todos os setores da economia do conhecimento Harvey: advogado de IA Glean: assistente de trabalho com IA Factory: engenheiro de software com IA Abridge: escriba médico com IA XBOW: testador de intrusão com IA Sierra: agente de suporte ao cliente com IA Ao reduzir o custo marginal de oferecer esses serviços ao nível da forte queda dos custos de inferência, as aplicações agentes estão expandindo e criando novos mercados A XBOW é um bom exemplo: A XBOW está criando um “pentester” de IA “Pentest”, ou teste de intrusão, é um ataque cibernético simulado contra um sistema computacional, realizado para que empresas avaliem seus próprios sistemas de segurança Antes da Generative AI, como o pentest humano era caro — trabalho manual feito por profissionais qualificados — as empresas só contratavam pentesters em situações limitadas, como quando isso era exigido para compliance Mas agora a XBOW está demonstrando pentests automatizados com base em LLMs de raciocínio de ponta, com desempenho comparável ao dos pentesters humanos mais qualificados Isso amplia o mercado de pentest e abre a possibilidade de testes contínuos para empresas de todos os tamanhos e perfis O que isso significa para o setor de SaaS? Quando nos encontramos com LPs no início deste ano, a pergunta que mais ouvimos foi: "A transição para IA vai destruir as empresas de nuvem já estabelecidas?" Começamos com uma hipótese-base forte de que "não" A disputa clássica entre startups e incumbentes é como uma corrida em que as startups constroem distribuição e os incumbentes constroem produto Será que empresas jovens com um produto incrível conseguem chegar aos clientes antes que os incumbentes, que já dominam o cliente, lancem um produto incrível? Considerando que a maior parte da magia da IA vem dos modelos fundacionais, nossa hipótese-base era "não" Os incumbentes têm tanto acesso aos modelos fundacionais quanto as startups e, além disso, contam com vantagens já existentes em dados e distribuição, então tendem a se sair bem A principal oportunidade das startups não é substituir empresas de software já estabelecidas, mas atacar o conjunto de tarefas que podem ser automatizadas Mas já não estamos tão confiantes nisso Veja o que foi mencionado acima sobre arquitetura cognitiva É preciso uma enorme quantidade de engenharia para transformar as capacidades brutas dos modelos em soluções de negócio end-to-end convincentes e confiáveis Será que estamos subestimando drasticamente o que significa ser "AI native"? Há 20 anos, as empresas de software on-premise zombavam da ideia de SaaS "Não é nada demais. Nós também podemos operar nossos próprios servidores e oferecer isso pela internet!" Em termos conceituais era simples, mas o que veio depois foi uma reinvenção completa do negócio: EPD migrou do modelo waterfall e de PRDs para desenvolvimento ágil e testes A/B GTM migrou de vendas corporativas top-down e jantares com steak para PLG bottom-up e product analytics O modelo de negócios migrou de ASP alto e fluxos de manutenção para NDR alto e precificação baseada em uso Pouquíssimas empresas on-premise conseguiram fazer a transição com sucesso A IA pode ser um ponto de inflexão semelhante ao SaaS? A oportunidade da IA pode ser vender trabalho e, ao mesmo tempo, substituir software? Com a Day.ai, conseguimos enxergar um vislumbre do futuro A Day é uma CRM AI native Integradores de sistemas ganham bilhões de dólares configurando Salesforce para atender às necessidades dos clientes A Day cria automaticamente um CRM perfeitamente adaptado ao negócio do cliente apenas com acesso a e-mail e calendário, além das respostas a um questionário de uma página Ainda não tem todos os recursos, mas a magia de um CRM gerado automaticamente que se mantém sempre atualizado sem intervenção humana já está levando as pessoas a decidirem migrar Setor de investimentos Onde os investidores estão dedicando tempo e alocando capital? Infraestrutura Essa é a área dos hyperscalers É guiada mais por comportamento de teoria dos jogos do que por análise econômica Não é uma área adequada para investidores de venture capital Modelos É a área em que atuam hyperscalers e investidores financeiros (FI) Os hyperscalers investem usando seus balanços patrimoniais para gerar retorno, de uma forma que acaba voltando como custo computacional para o negócio de nuvem Investidores financeiros são influenciados por um viés de "se encantar com a ciência" Esses modelos são muito interessantes e as equipes são excelentes, mas a lógica econômica é ignorada Ferramentas para desenvolvedores e software de infraestrutura Menos interessante para investidores estratégicos, mas mais atraente para investidores de venture capital Na transição para a nuvem, cerca de 15 empresas com mais de US$ 1 bilhão em receita foram criadas nessa camada Espera-se algo semelhante na transição para IA Aplicações É a camada mais interessante para investidores de venture capital Durante a transição para a nuvem, cerca de 20 empresas da camada de aplicações com mais de US$ 1 bilhão em receita foram criadas Um número parecido de empresas surgiu na transição mobile, e espera-se uma tendência semelhante nesta transição para IA Considerações finais Na próxima fase da IA generativa, espera-se que o impacto de pesquisa e desenvolvimento (P&D) em raciocínio se espalhe de forma rápida e profunda pela camada de aplicações Arquiteturas cognitivas tradicionais incluíam principalmente técnicas de "remover restrições" (unhobbling), mas agora essas capacidades estão sendo incorporadas ao próprio modelo, o que deve tornar aplicações baseadas em agentes mais sofisticadas e robustas Nos laboratórios, Reasoning e computação em Inference-Time continuarão sendo temas importantes, e agora que surgiram novas leis de escala, começa a próxima disputa Mas em domínios específicos, ainda é difícil coletar dados do mundo real e codificar arquiteturas cognitivas especializadas para o domínio e para a aplicação Fornecedores de aplicativos de última milha podem estar em vantagem para resolver esses problemas No futuro, é possível que surjam sistemas multiagentes como o Droid da Factory, que se espalhem como uma forma de modelar processos de raciocínio e aprendizado social Espera-se que sistemas multiagentes consigam realizar mais trabalho ao formar equipes capazes de executar várias tarefas ao mesmo tempo O momento que muita gente espera é o 'Move 37' da IA generativa, isto é, o instante em que um sistema de IA geral demonstra um comportamento super-humano inesperado, como o AlphaGo fez na partida contra Lee Sedol Mesmo que esse momento chegue, isso não significa que a IA "ganhe consciência", mas sim que ela pode adquirir a capacidade de simular os processos de percepção, raciocínio e ação para explorar de maneiras originais e úteis Isso pode ser AGI (autonomia completa da inteligência artificial), e não como um evento único, mas como a próxima etapa da tecnologia

(sequoiacap.com)

30 pontos por xguru 2024-10-21 | 4 comentários | Compartilhar no WhatsApp

À medida que a revolução da IA generativa entra em seu segundo ano, a pesquisa está evoluindo do "pensamento rápido" para o "pensamento lento"
- "Pensamento rápido" significa respostas rápidas pré-treinadas, enquanto "pensamento lento" significa fazer reasoning no momento da inferência
- Essa evolução está dando origem a um novo tipo de aplicação de agentes
À medida que a camada de base do mercado de IA generativa se estabiliza, um pequeno número de grandes players como Microsoft/OpenAI, AWS/Anthropic, Meta e Google/DeepMind está liderando o mercado
- Apenas grandes empresas com motores econômicos e capital maciço permanecem na disputa
- A própria estrutura de mercado está se consolidando, e a previsão do próximo token ficará barata e abundante
Com a estabilização da estrutura do mercado de LLMs, surge uma nova fronteira
- O foco está no desenvolvimento e na expansão de uma camada de raciocínio em que o pensamento de "Sistema 2" tem prioridade
- Inspirada em modelos como o AlphaGo, essa camada busca dar aos sistemas de IA capacidades de raciocínio cuidadoso, resolução de problemas e cognição, indo além da simples correspondência de padrões
- Novas arquiteturas cognitivas e interfaces de usuário estão moldando a forma como essa capacidade de raciocínio é entregue aos usuários e como eles interagem com ela

Strawberry Fields Forever

A atualização de modelo mais importante de 2024 é o o1 da OpenAI (antes conhecido como Q* e também chamado de Strawberry)
- Isso não significa apenas que a OpenAI voltou ao topo dos rankings de qualidade de modelos, mas também que trouxe uma melhoria significativa para a arquitetura atual dominante
- Mais especificamente, é o primeiro modelo com verdadeira "capacidade geral de raciocínio" alcançada por meio de computação em tempo de inferência
Modelos pré-treinados vs. computação em tempo de inferência
- Modelos pré-treinados realizam previsão do próximo token usando enormes volumes de dados
- Uma propriedade emergente da escala é o raciocínio básico, mas esse raciocínio é muito limitado
- Computação em tempo de inferência significa pedir ao modelo que pare e pense antes de fornecer uma resposta
- Isso exige mais computação no momento da inferência
- A parte de "parar e pensar" é justamente o raciocínio

Comparação entre AlphaGo e LLMs

Em março de 2016, em Seul, o AlphaGo enfrentou a lenda do baduk Lee Sedol e criou um dos momentos mais importantes da história do deep learning
- O AlphaGo mostrou ao mundo uma IA "que pensa", indo além de apenas imitar padrões
Diferenças entre o AlphaGo e sistemas anteriores de IA para jogos
- Assim como os LLMs, o AlphaGo foi pré-treinado para imitar especialistas humanos por meio de uma base de cerca de 30 milhões de jogadas de partidas anteriores e de autojogo
- Porém, em vez de fornecer uma reação imediata vinda de um modelo pré-treinado, o AlphaGo dedicava tempo para parar e pensar
- Durante a inferência, o AlphaGo executava buscas ou simulações sobre uma ampla gama de cenários futuros potenciais, avaliava esses cenários e então respondia com o cenário (ou resposta) de maior valor esperado
- Quanto mais tempo era dado ao AlphaGo, melhor ele performava
- Sem nenhuma computação em tempo de inferência, o AlphaGo não conseguiria vencer os melhores jogadores humanos
Por que é difícil replicar o AlphaGo em LLMs
- É difícil construir uma função de valor (value function) para avaliar respostas
- No baduk, é possível simular a partida até o fim, verificar quem vence e então calcular o valor esperado da próxima jogada
- Em programação, é possível testar o código e ver se ele funciona
- Mas rascunhos de ensaios, roteiros de viagem ou resumos dos termos-chave de documentos longos são difíceis de avaliar
- Esse é o motivo de o raciocínio ser difícil com as metodologias atuais e de o Strawberry ser relativamente forte em domínios mais próximos da lógica (como programação, matemática e ciência), mas não em áreas abertas e não estruturadas (como escrita)
Pesquisa para melhorar a capacidade de raciocínio do modelo Strawberry
- A implementação real do Strawberry é fortemente protegida, mas a ideia central está relacionada ao aprendizado por reforço sobre cadeias de pensamento geradas pelo modelo
- Auditar as cadeias de pensamento do modelo sugere que algo fundamental e interessante, semelhante à forma como humanos pensam e raciocinam, está acontecendo
- Por exemplo, o o1 está mostrando a capacidade de voltar atrás quando fica travado, como uma propriedade emergente do escalonamento em tempo de inferência
- Também demonstra capacidade de pensar sobre problemas como humanos (por exemplo, visualizar pontos em uma esfera para resolver um problema de geometria) e de pensar sobre problemas de novas formas (por exemplo, resolver problemas de competições de programação de maneira diferente dos humanos)
- As equipes de pesquisa têm muitas ideias para avançar a computação em tempo de inferência, como novos métodos para calcular funções de recompensa e novas formas de reduzir a lacuna entre generator e verifier, a fim de melhorar a capacidade de raciocínio dos modelos
- Em outras palavras, o aprendizado por reforço profundo voltou ao centro das atenções, e isso está tornando possível uma nova camada de raciocínio

Salto do Sistema 1 para o pensamento de Sistema 2

O salto de respostas instintivas pré-treinadas ("Sistema 1") para um raciocínio mais profundo e cuidadoso ("Sistema 2") é a próxima fronteira da IA
Não basta que o modelo simplesmente saiba algo
O modelo precisa parar por um momento, avaliar e raciocinar para tomar decisões em tempo real
O pré-treinamento corresponde à camada do Sistema 1
- Seja aprendendo milhões de jogadas de baduk no AlphaGo ou petabytes de texto em escala de internet em LLMs, o objetivo do pré-treinamento é imitar padrões como o jogo humano ou a linguagem humana
- Porém, imitação, por mais poderosa que seja, não é raciocínio verdadeiro
- Em especial, ela não consegue pensar adequadamente em situações complexas e novas fora do conjunto de dados de treinamento
O pensamento de Sistema 2 é o foco da pesquisa de IA de ponta
- Quando o modelo "para e pensa", ele não está apenas gerando padrões aprendidos nem despejando previsões com base em dados passados
- Ele gera um conjunto de possibilidades, considera resultados potenciais e toma decisões com base em raciocínio
Uso apropriado do pensamento de Sistema 1 e Sistema 2
- Em muitas tarefas, o pensamento de Sistema 1 é suficiente (por exemplo, pensar por mais tempo não ajuda a responder qual é a capital do Butão)
- Porém, em problemas mais complexos, como avanços em matemática ou biologia, respostas rápidas e instintivas são insuficientes
- Esses avanços exigem pensamento profundo, resolução criativa de problemas e, acima de tudo, tempo
- O mesmo vale para a IA. Para resolver os problemas mais difíceis e significativos, ela precisa ir além de respostas rápidas dentro do conjunto de dados de treino e dedicar tempo para produzir o raciocínio ponderado que define o progresso humano

Nova lei de escala: o início da corrida pelo raciocínio

O insight mais importante do artigo do o1 da OpenAI é que surgiu uma nova lei de escala
A lei de escala do pré-treinamento de LLMs
- O pré-treinamento de LLMs segue uma lei de escala bem compreendida
- Quanto mais computação e dados são usados no pré-treinamento do modelo, melhor é o desempenho
A nova lei de escala da computação em tempo de inferência
- O artigo do o1 abriu uma nova dimensão para escalar computação
- Quanto mais tempo de inferência (ou computação em "tempo de teste") for dado ao modelo, mais sua capacidade de raciocínio melhora
O que acontece se os modelos puderem pensar por horas, dias ou décadas?
- Será que eles poderiam resolver a hipótese de Riemann?
- Poderiam responder à última pergunta de Asimov?
A transição de grandes clusters de pré-treinamento para a nuvem de inferência
- Essa mudança vai nos levar do mundo dos grandes clusters de pré-treinamento para o da nuvem de inferência
- A nuvem de inferência é um ambiente capaz de escalar computação dinamicamente de acordo com a complexidade da tarefa

Será que um único modelo vai dominar tudo?

O que acontece à medida que OpenAI, Anthropic, Google, Meta e outras expandem a camada de raciocínio e desenvolvem máquinas de raciocínio mais poderosas?
Será que um único modelo vai dominar tudo?
Uma hipótese era que uma empresa de modelo único ficaria poderosa demais e acabaria absorvendo todas as outras aplicações
- Até agora, essa previsão se mostrou errada em dois aspectos
- Primeiro, há muitos concorrentes na camada de modelos, competindo sem parar por capacidades SOTA
  - É possível que alguém consiga melhoria contínua de si mesmo por meio de autoaprendizado amplo em vários domínios e decole, mas ainda não há evidências disso
  - Em vez disso, a camada de modelos é um campo de competição feroz, e o preço por token do GPT-4 caiu 98% desde o último Developer Day
- Segundo, os modelos estão tendo dificuldade para avançar para a camada de aplicações
  - Com exceção do ChatGPT, os modelos em geral falharam em se firmar como produtos revolucionários na camada de aplicações
  - Porque o mundo real é complexo
  - Pesquisadores brilhantes não querem entender fluxos de trabalho detalhados de ponta a ponta para todas as funções possíveis em todos os mercados verticais possíveis
  - É atraente e economicamente racional que os pesquisadores parem na API e deixem a complexidade do mundo real para o ecossistema de desenvolvedores
  - Isso é uma boa notícia para a camada de aplicações

O mundo real complexo: a necessidade de arquiteturas cognitivas personalizadas

A forma como um cientista planeja e executa ações para atingir seus objetivos é muito diferente da forma como um engenheiro de software trabalha
E até a forma como engenheiros de software trabalham varia de uma empresa para outra
Embora os laboratórios estejam expandindo ainda mais os limites do raciocínio horizontal de uso geral, ainda é necessário raciocínio específico de aplicação ou de domínio para entregar agentes de IA realmente úteis
O mundo real complexo exige muito raciocínio específico de domínio e de aplicação, algo que não pode ser codificado de forma eficiente em um modelo geral
O surgimento da arquitetura cognitiva
- Arquitetura cognitiva se refere à forma de pensar do sistema, ou seja, ao fluxo de código e interações com modelos que recebe a entrada do usuário e executa ações ou gera respostas
- No caso da Factory, por exemplo, cada produto “droid” tem uma arquitetura cognitiva personalizada que imita a forma de pensar humana para resolver tarefas específicas, como revisar pull requests ou elaborar e executar um plano de migração para atualizações de serviços backend-to-backend
- Os droids da Factory analisam todas as dependências, propõem alterações de código relevantes, adicionam testes unitários e envolvem humanos para revisão
- Depois, após a aprovação, executam as mudanças em todos os arquivos do ambiente de desenvolvimento e, se todos os testes passarem, fazem o merge do código
- Isso se parece com a maneira humana de pensar, composta por uma série de tarefas distintas, e não por uma única resposta generalizada e de caixa-preta

O que está acontecendo nos apps?

Se você quer começar um negócio de IA, qual camada deve mirar?
- Para competir na camada de infraestrutura, é preciso vencer a NVIDIA e os hyperscalers
- Para competir na camada de modelos, é preciso vencer a OpenAI e Mark Zuckerberg
- Para competir na camada de aplicações, é preciso vencer a TI corporativa e os integradores globais de sistemas
- Competir na camada de aplicações parece ser o caminho mais viável
A oportunidade na camada de aplicações
- Modelos fundacionais parecem mágicos, mas também são complexos
- Empresas tradicionais não conseguem lidar com caixa-preta, alucinações e fluxos de trabalho improvisados
- Consumidores veem um prompt em branco e não sabem o que pedir
- Essa é a oportunidade da camada de aplicações
Há dois anos, muitas empresas da camada de aplicações eram criticadas por serem “apenas wrappers em cima do GPT-3”
- Hoje, esses wrappers se mostraram uma das poucas formas saudáveis de construir valor sustentável
- O que começou como “wrapper” evoluiu para “arquitetura cognitiva”
Características das empresas de IA da camada de aplicações
- Não se trata simplesmente de colocar uma UI em cima de um modelo fundacional
- Em geral, elas têm arquiteturas cognitivas sofisticadas, que incluem:
  - vários modelos fundacionais com algum tipo de mecanismo de roteamento no topo
  - bancos de dados vetoriais e/ou de grafos para RAG
  - guardrails para garantir conformidade
  - lógica de aplicação que imita formas de raciocínio por meio de workflows

Service-as-a-Software

A transição para a nuvem foi “Software-as-a-Service”. Empresas de software se tornaram provedoras de serviços em nuvem, e isso representou uma oportunidade de US$ 350 bilhões
Graças ao raciocínio de agentes, a transição da IA é “Service-as-a-Software”. Empresas de software estão transformando trabalho em software
Isso significa que o mercado-alvo não é o mercado de software, mas o mercado trilionário de serviços
O que significa vender trabalho
- A empresa Sierra é um bom exemplo
- Empresas B2C colocam a Sierra em seus sites para conversar com clientes
- O job-to-be-done é resolver o problema do cliente
- A Sierra cobra por problema resolvido
- Não existe algo como “seat”. Há um trabalho a ser feito, a Sierra faz esse trabalho e cobra de acordo com isso
- Essa é a verdadeira estrela-guia de muitas empresas de IA
A vantagem da Sierra e os desafios das outras empresas
- A Sierra tem a vantagem de um modo de falha elegante: escalonamento para um atendente humano
- Nem todas as empresas têm essa sorte
- O novo padrão é primeiro implantar com human-in-the-loop e depois usar essa experiência para conquistar oportunidades de implantação em piloto automático, com human-out-of-the-loop
- O GitHub Copilot é um bom exemplo disso

Um novo tipo de aplicação agente está começando a surgir

As novas capacidades de raciocínio da Generative AI estão começando a dar origem a um novo tipo de aplicação agente
Curiosamente, essas empresas da camada de aplicações têm uma cara diferente das antigas empresas de nuvem:
- Empresas de nuvem miravam receita de software, enquanto empresas de IA miram receita de serviços
- Empresas de nuvem vendiam software ($/seat), enquanto empresas de IA vendem trabalho ($/resultado)
- Empresas de nuvem preferiam uma abordagem bottom-up com distribuição sem atrito, enquanto empresas de IA estão adotando cada vez mais uma abordagem top-down com modelos de entrega high-touch e high-trust
Exemplos de aplicações agentes surgindo em todos os setores da economia do conhecimento
- Harvey: advogado de IA
- Glean: assistente de trabalho com IA
- Factory: engenheiro de software com IA
- Abridge: escriba médico com IA
- XBOW: testador de intrusão com IA
- Sierra: agente de suporte ao cliente com IA
Ao reduzir o custo marginal de oferecer esses serviços ao nível da forte queda dos custos de inferência, as aplicações agentes estão expandindo e criando novos mercados
A XBOW é um bom exemplo:
- A XBOW está criando um “pentester” de IA
- “Pentest”, ou teste de intrusão, é um ataque cibernético simulado contra um sistema computacional, realizado para que empresas avaliem seus próprios sistemas de segurança
- Antes da Generative AI, como o pentest humano era caro — trabalho manual feito por profissionais qualificados — as empresas só contratavam pentesters em situações limitadas, como quando isso era exigido para compliance
- Mas agora a XBOW está demonstrando pentests automatizados com base em LLMs de raciocínio de ponta, com desempenho comparável ao dos pentesters humanos mais qualificados
- Isso amplia o mercado de pentest e abre a possibilidade de testes contínuos para empresas de todos os tamanhos e perfis

O que isso significa para o setor de SaaS?

Quando nos encontramos com LPs no início deste ano, a pergunta que mais ouvimos foi: "A transição para IA vai destruir as empresas de nuvem já estabelecidas?"
Começamos com uma hipótese-base forte de que "não"
- A disputa clássica entre startups e incumbentes é como uma corrida em que as startups constroem distribuição e os incumbentes constroem produto
- Será que empresas jovens com um produto incrível conseguem chegar aos clientes antes que os incumbentes, que já dominam o cliente, lancem um produto incrível?
- Considerando que a maior parte da magia da IA vem dos modelos fundacionais, nossa hipótese-base era "não"
- Os incumbentes têm tanto acesso aos modelos fundacionais quanto as startups e, além disso, contam com vantagens já existentes em dados e distribuição, então tendem a se sair bem
- A principal oportunidade das startups não é substituir empresas de software já estabelecidas, mas atacar o conjunto de tarefas que podem ser automatizadas
Mas já não estamos tão confiantes nisso
- Veja o que foi mencionado acima sobre arquitetura cognitiva
- É preciso uma enorme quantidade de engenharia para transformar as capacidades brutas dos modelos em soluções de negócio end-to-end convincentes e confiáveis
- Será que estamos subestimando drasticamente o que significa ser "AI native"?
Há 20 anos, as empresas de software on-premise zombavam da ideia de SaaS
- "Não é nada demais. Nós também podemos operar nossos próprios servidores e oferecer isso pela internet!"
- Em termos conceituais era simples, mas o que veio depois foi uma reinvenção completa do negócio:
  - EPD migrou do modelo waterfall e de PRDs para desenvolvimento ágil e testes A/B
  - GTM migrou de vendas corporativas top-down e jantares com steak para PLG bottom-up e product analytics
  - O modelo de negócios migrou de ASP alto e fluxos de manutenção para NDR alto e precificação baseada em uso
- Pouquíssimas empresas on-premise conseguiram fazer a transição com sucesso
A IA pode ser um ponto de inflexão semelhante ao SaaS? A oportunidade da IA pode ser vender trabalho e, ao mesmo tempo, substituir software?
Com a Day.ai, conseguimos enxergar um vislumbre do futuro
- A Day é uma CRM AI native
- Integradores de sistemas ganham bilhões de dólares configurando Salesforce para atender às necessidades dos clientes
- A Day cria automaticamente um CRM perfeitamente adaptado ao negócio do cliente apenas com acesso a e-mail e calendário, além das respostas a um questionário de uma página
- Ainda não tem todos os recursos, mas a magia de um CRM gerado automaticamente que se mantém sempre atualizado sem intervenção humana já está levando as pessoas a decidirem migrar

Setor de investimentos

Onde os investidores estão dedicando tempo e alocando capital?
Infraestrutura
- Essa é a área dos hyperscalers
- É guiada mais por comportamento de teoria dos jogos do que por análise econômica
- Não é uma área adequada para investidores de venture capital
Modelos
- É a área em que atuam hyperscalers e investidores financeiros (FI)
- Os hyperscalers investem usando seus balanços patrimoniais para gerar retorno, de uma forma que acaba voltando como custo computacional para o negócio de nuvem
- Investidores financeiros são influenciados por um viés de "se encantar com a ciência"
- Esses modelos são muito interessantes e as equipes são excelentes, mas a lógica econômica é ignorada
Ferramentas para desenvolvedores e software de infraestrutura
- Menos interessante para investidores estratégicos, mas mais atraente para investidores de venture capital
- Na transição para a nuvem, cerca de 15 empresas com mais de US$ 1 bilhão em receita foram criadas nessa camada
- Espera-se algo semelhante na transição para IA
Aplicações
- É a camada mais interessante para investidores de venture capital
- Durante a transição para a nuvem, cerca de 20 empresas da camada de aplicações com mais de US$ 1 bilhão em receita foram criadas
- Um número parecido de empresas surgiu na transição mobile, e espera-se uma tendência semelhante nesta transição para IA

Considerações finais

Na próxima fase da IA generativa, espera-se que o impacto de pesquisa e desenvolvimento (P&D) em raciocínio se espalhe de forma rápida e profunda pela camada de aplicações
Arquiteturas cognitivas tradicionais incluíam principalmente técnicas de "remover restrições" (unhobbling), mas agora essas capacidades estão sendo incorporadas ao próprio modelo, o que deve tornar aplicações baseadas em agentes mais sofisticadas e robustas
Nos laboratórios, Reasoning e computação em Inference-Time continuarão sendo temas importantes, e agora que surgiram novas leis de escala, começa a próxima disputa
Mas em domínios específicos, ainda é difícil coletar dados do mundo real e codificar arquiteturas cognitivas especializadas para o domínio e para a aplicação
Fornecedores de aplicativos de última milha podem estar em vantagem para resolver esses problemas
No futuro, é possível que surjam sistemas multiagentes como o Droid da Factory, que se espalhem como uma forma de modelar processos de raciocínio e aprendizado social
Espera-se que sistemas multiagentes consigam realizar mais trabalho ao formar equipes capazes de executar várias tarefas ao mesmo tempo
O momento que muita gente espera é o 'Move 37' da IA generativa, isto é, o instante em que um sistema de IA geral demonstra um comportamento super-humano inesperado, como o AlphaGo fez na partida contra Lee Sedol
Mesmo que esse momento chegue, isso não significa que a IA "ganhe consciência", mas sim que ela pode adquirir a capacidade de simular os processos de percepção, raciocínio e ação para explorar de maneiras originais e úteis
Isso pode ser AGI (autonomia completa da inteligência artificial), e não como um evento único, mas como a próxima etapa da tecnologia

4 comentários

lsw4uto 2024-11-11

É empolgante pensar em que tipos de problemas poderão ser resolvidos com uma inteligência artificial cada vez mais inteligente.

aer0700 2024-10-27

Se um modelo puder pensar por muito tempo e resolver a hipótese de Riemann, o impacto será enorme.

pmc7777 2024-10-21

Para competir na camada de modelos, é preciso vencer a OpenAI e Mark Zuckerberg.

É meio engraçado terem mencionado o Zuckerberg em vez da Meta kkk

kotzen 2024-10-21

Caso não esteja explicitamente indicado no texto-resumo, por via das dúvidas vale registrar que Sistema 1 e Sistema 2 são conceitos apresentados no livro Rápido e Devagar: Duas Formas de Pensar (Thinking, Fast and Slow).
Sistema 1: pensamento rápido, que leva à ação de forma inconsciente ou intuitiva, sem reflexão profunda, ex.) dirigir, caminhar
Sistema 2: pensamento lento, que exige raciocínio lógico e reflexão cuidadosa, ex.) cálculo mental