- À medida que a revolução da IA generativa entra em seu segundo ano, a pesquisa está evoluindo do "pensamento rápido" para o "pensamento lento"
- "Pensamento rápido" significa respostas rápidas pré-treinadas, enquanto "pensamento lento" significa fazer reasoning no momento da inferência
- Essa evolução está dando origem a um novo tipo de aplicação de agentes
- À medida que a camada de base do mercado de IA generativa se estabiliza, um pequeno número de grandes players como Microsoft/OpenAI, AWS/Anthropic, Meta e Google/DeepMind está liderando o mercado
- Apenas grandes empresas com motores econômicos e capital maciço permanecem na disputa
- A própria estrutura de mercado está se consolidando, e a previsão do próximo token ficará barata e abundante
- Com a estabilização da estrutura do mercado de LLMs, surge uma nova fronteira
- O foco está no desenvolvimento e na expansão de uma camada de raciocínio em que o pensamento de "Sistema 2" tem prioridade
- Inspirada em modelos como o AlphaGo, essa camada busca dar aos sistemas de IA capacidades de raciocínio cuidadoso, resolução de problemas e cognição, indo além da simples correspondência de padrões
- Novas arquiteturas cognitivas e interfaces de usuário estão moldando a forma como essa capacidade de raciocínio é entregue aos usuários e como eles interagem com ela
Strawberry Fields Forever
- A atualização de modelo mais importante de 2024 é o o1 da OpenAI (antes conhecido como Q* e também chamado de Strawberry)
- Isso não significa apenas que a OpenAI voltou ao topo dos rankings de qualidade de modelos, mas também que trouxe uma melhoria significativa para a arquitetura atual dominante
- Mais especificamente, é o primeiro modelo com verdadeira "capacidade geral de raciocínio" alcançada por meio de computação em tempo de inferência
- Modelos pré-treinados vs. computação em tempo de inferência
- Modelos pré-treinados realizam previsão do próximo token usando enormes volumes de dados
- Uma propriedade emergente da escala é o raciocínio básico, mas esse raciocínio é muito limitado
- Computação em tempo de inferência significa pedir ao modelo que pare e pense antes de fornecer uma resposta
- Isso exige mais computação no momento da inferência
- A parte de "parar e pensar" é justamente o raciocínio
Comparação entre AlphaGo e LLMs
- Em março de 2016, em Seul, o AlphaGo enfrentou a lenda do baduk Lee Sedol e criou um dos momentos mais importantes da história do deep learning
- O AlphaGo mostrou ao mundo uma IA "que pensa", indo além de apenas imitar padrões
- Diferenças entre o AlphaGo e sistemas anteriores de IA para jogos
- Assim como os LLMs, o AlphaGo foi pré-treinado para imitar especialistas humanos por meio de uma base de cerca de 30 milhões de jogadas de partidas anteriores e de autojogo
- Porém, em vez de fornecer uma reação imediata vinda de um modelo pré-treinado, o AlphaGo dedicava tempo para parar e pensar
- Durante a inferência, o AlphaGo executava buscas ou simulações sobre uma ampla gama de cenários futuros potenciais, avaliava esses cenários e então respondia com o cenário (ou resposta) de maior valor esperado
- Quanto mais tempo era dado ao AlphaGo, melhor ele performava
- Sem nenhuma computação em tempo de inferência, o AlphaGo não conseguiria vencer os melhores jogadores humanos
- Por que é difícil replicar o AlphaGo em LLMs
- É difícil construir uma função de valor (
value function) para avaliar respostas
- No baduk, é possível simular a partida até o fim, verificar quem vence e então calcular o valor esperado da próxima jogada
- Em programação, é possível testar o código e ver se ele funciona
- Mas rascunhos de ensaios, roteiros de viagem ou resumos dos termos-chave de documentos longos são difíceis de avaliar
- Esse é o motivo de o raciocínio ser difícil com as metodologias atuais e de o Strawberry ser relativamente forte em domínios mais próximos da lógica (como programação, matemática e ciência), mas não em áreas abertas e não estruturadas (como escrita)
- Pesquisa para melhorar a capacidade de raciocínio do modelo Strawberry
- A implementação real do Strawberry é fortemente protegida, mas a ideia central está relacionada ao aprendizado por reforço sobre cadeias de pensamento geradas pelo modelo
- Auditar as cadeias de pensamento do modelo sugere que algo fundamental e interessante, semelhante à forma como humanos pensam e raciocinam, está acontecendo
- Por exemplo, o o1 está mostrando a capacidade de voltar atrás quando fica travado, como uma propriedade emergente do escalonamento em tempo de inferência
- Também demonstra capacidade de pensar sobre problemas como humanos (por exemplo, visualizar pontos em uma esfera para resolver um problema de geometria) e de pensar sobre problemas de novas formas (por exemplo, resolver problemas de competições de programação de maneira diferente dos humanos)
- As equipes de pesquisa têm muitas ideias para avançar a computação em tempo de inferência, como novos métodos para calcular funções de recompensa e novas formas de reduzir a lacuna entre generator e verifier, a fim de melhorar a capacidade de raciocínio dos modelos
- Em outras palavras, o aprendizado por reforço profundo voltou ao centro das atenções, e isso está tornando possível uma nova camada de raciocínio
Salto do Sistema 1 para o pensamento de Sistema 2
- O salto de respostas instintivas pré-treinadas ("Sistema 1") para um raciocínio mais profundo e cuidadoso ("Sistema 2") é a próxima fronteira da IA
- Não basta que o modelo simplesmente saiba algo
- O modelo precisa parar por um momento, avaliar e raciocinar para tomar decisões em tempo real
- O pré-treinamento corresponde à camada do Sistema 1
- Seja aprendendo milhões de jogadas de baduk no AlphaGo ou petabytes de texto em escala de internet em LLMs, o objetivo do pré-treinamento é imitar padrões como o jogo humano ou a linguagem humana
- Porém, imitação, por mais poderosa que seja, não é raciocínio verdadeiro
- Em especial, ela não consegue pensar adequadamente em situações complexas e novas fora do conjunto de dados de treinamento
- O pensamento de Sistema 2 é o foco da pesquisa de IA de ponta
- Quando o modelo "para e pensa", ele não está apenas gerando padrões aprendidos nem despejando previsões com base em dados passados
- Ele gera um conjunto de possibilidades, considera resultados potenciais e toma decisões com base em raciocínio
- Uso apropriado do pensamento de Sistema 1 e Sistema 2
- Em muitas tarefas, o pensamento de Sistema 1 é suficiente (por exemplo, pensar por mais tempo não ajuda a responder qual é a capital do Butão)
- Porém, em problemas mais complexos, como avanços em matemática ou biologia, respostas rápidas e instintivas são insuficientes
- Esses avanços exigem pensamento profundo, resolução criativa de problemas e, acima de tudo, tempo
- O mesmo vale para a IA. Para resolver os problemas mais difíceis e significativos, ela precisa ir além de respostas rápidas dentro do conjunto de dados de treino e dedicar tempo para produzir o raciocínio ponderado que define o progresso humano
Nova lei de escala: o início da corrida pelo raciocínio
- O insight mais importante do artigo do o1 da OpenAI é que surgiu uma nova lei de escala
- A lei de escala do pré-treinamento de LLMs
- O pré-treinamento de LLMs segue uma lei de escala bem compreendida
- Quanto mais computação e dados são usados no pré-treinamento do modelo, melhor é o desempenho
- A nova lei de escala da computação em tempo de inferência
- O artigo do o1 abriu uma nova dimensão para escalar computação
- Quanto mais tempo de inferência (ou computação em "tempo de teste") for dado ao modelo, mais sua capacidade de raciocínio melhora
- O que acontece se os modelos puderem pensar por horas, dias ou décadas?
- Será que eles poderiam resolver a hipótese de Riemann?
- Poderiam responder à última pergunta de Asimov?
- A transição de grandes clusters de pré-treinamento para a nuvem de inferência
- Essa mudança vai nos levar do mundo dos grandes clusters de pré-treinamento para o da nuvem de inferência
- A nuvem de inferência é um ambiente capaz de escalar computação dinamicamente de acordo com a complexidade da tarefa
Será que um único modelo vai dominar tudo?
- O que acontece à medida que OpenAI, Anthropic, Google, Meta e outras expandem a camada de raciocínio e desenvolvem máquinas de raciocínio mais poderosas?
- Será que um único modelo vai dominar tudo?
- Uma hipótese era que uma empresa de modelo único ficaria poderosa demais e acabaria absorvendo todas as outras aplicações
- Até agora, essa previsão se mostrou errada em dois aspectos
- Primeiro, há muitos concorrentes na camada de modelos, competindo sem parar por capacidades SOTA
- É possível que alguém consiga melhoria contínua de si mesmo por meio de autoaprendizado amplo em vários domínios e decole, mas ainda não há evidências disso
- Em vez disso, a camada de modelos é um campo de competição feroz, e o preço por token do GPT-4 caiu 98% desde o último Developer Day
- Segundo, os modelos estão tendo dificuldade para avançar para a camada de aplicações
- Com exceção do ChatGPT, os modelos em geral falharam em se firmar como produtos revolucionários na camada de aplicações
- Porque o mundo real é complexo
- Pesquisadores brilhantes não querem entender fluxos de trabalho detalhados de ponta a ponta para todas as funções possíveis em todos os mercados verticais possíveis
- É atraente e economicamente racional que os pesquisadores parem na API e deixem a complexidade do mundo real para o ecossistema de desenvolvedores
- Isso é uma boa notícia para a camada de aplicações
O mundo real complexo: a necessidade de arquiteturas cognitivas personalizadas
- A forma como um cientista planeja e executa ações para atingir seus objetivos é muito diferente da forma como um engenheiro de software trabalha
- E até a forma como engenheiros de software trabalham varia de uma empresa para outra
- Embora os laboratórios estejam expandindo ainda mais os limites do raciocínio horizontal de uso geral, ainda é necessário raciocínio específico de aplicação ou de domínio para entregar agentes de IA realmente úteis
- O mundo real complexo exige muito raciocínio específico de domínio e de aplicação, algo que não pode ser codificado de forma eficiente em um modelo geral
- O surgimento da arquitetura cognitiva
- Arquitetura cognitiva se refere à forma de pensar do sistema, ou seja, ao fluxo de código e interações com modelos que recebe a entrada do usuário e executa ações ou gera respostas
- No caso da Factory, por exemplo, cada produto “droid” tem uma arquitetura cognitiva personalizada que imita a forma de pensar humana para resolver tarefas específicas, como revisar pull requests ou elaborar e executar um plano de migração para atualizações de serviços backend-to-backend
- Os droids da Factory analisam todas as dependências, propõem alterações de código relevantes, adicionam testes unitários e envolvem humanos para revisão
- Depois, após a aprovação, executam as mudanças em todos os arquivos do ambiente de desenvolvimento e, se todos os testes passarem, fazem o merge do código
- Isso se parece com a maneira humana de pensar, composta por uma série de tarefas distintas, e não por uma única resposta generalizada e de caixa-preta
O que está acontecendo nos apps?
- Se você quer começar um negócio de IA, qual camada deve mirar?
- Para competir na camada de infraestrutura, é preciso vencer a NVIDIA e os hyperscalers
- Para competir na camada de modelos, é preciso vencer a OpenAI e Mark Zuckerberg
- Para competir na camada de aplicações, é preciso vencer a TI corporativa e os integradores globais de sistemas
- Competir na camada de aplicações parece ser o caminho mais viável
- A oportunidade na camada de aplicações
- Modelos fundacionais parecem mágicos, mas também são complexos
- Empresas tradicionais não conseguem lidar com caixa-preta, alucinações e fluxos de trabalho improvisados
- Consumidores veem um prompt em branco e não sabem o que pedir
- Essa é a oportunidade da camada de aplicações
- Há dois anos, muitas empresas da camada de aplicações eram criticadas por serem “apenas wrappers em cima do GPT-3”
- Hoje, esses wrappers se mostraram uma das poucas formas saudáveis de construir valor sustentável
- O que começou como “wrapper” evoluiu para “arquitetura cognitiva”
- Características das empresas de IA da camada de aplicações
- Não se trata simplesmente de colocar uma UI em cima de um modelo fundacional
- Em geral, elas têm arquiteturas cognitivas sofisticadas, que incluem:
- vários modelos fundacionais com algum tipo de mecanismo de roteamento no topo
- bancos de dados vetoriais e/ou de grafos para RAG
- guardrails para garantir conformidade
- lógica de aplicação que imita formas de raciocínio por meio de workflows
Service-as-a-Software
- A transição para a nuvem foi “Software-as-a-Service”. Empresas de software se tornaram provedoras de serviços em nuvem, e isso representou uma oportunidade de US$ 350 bilhões
- Graças ao raciocínio de agentes, a transição da IA é “Service-as-a-Software”. Empresas de software estão transformando trabalho em software
- Isso significa que o mercado-alvo não é o mercado de software, mas o mercado trilionário de serviços
- O que significa vender trabalho
- A empresa Sierra é um bom exemplo
- Empresas B2C colocam a Sierra em seus sites para conversar com clientes
- O job-to-be-done é resolver o problema do cliente
- A Sierra cobra por problema resolvido
- Não existe algo como “seat”. Há um trabalho a ser feito, a Sierra faz esse trabalho e cobra de acordo com isso
- Essa é a verdadeira estrela-guia de muitas empresas de IA
- A vantagem da Sierra e os desafios das outras empresas
- A Sierra tem a vantagem de um modo de falha elegante: escalonamento para um atendente humano
- Nem todas as empresas têm essa sorte
- O novo padrão é primeiro implantar com human-in-the-loop e depois usar essa experiência para conquistar oportunidades de implantação em piloto automático, com human-out-of-the-loop
- O GitHub Copilot é um bom exemplo disso
Um novo tipo de aplicação agente está começando a surgir
- As novas capacidades de raciocínio da Generative AI estão começando a dar origem a um novo tipo de aplicação agente
- Curiosamente, essas empresas da camada de aplicações têm uma cara diferente das antigas empresas de nuvem:
- Empresas de nuvem miravam receita de software, enquanto empresas de IA miram receita de serviços
- Empresas de nuvem vendiam software ($/seat), enquanto empresas de IA vendem trabalho ($/resultado)
- Empresas de nuvem preferiam uma abordagem bottom-up com distribuição sem atrito, enquanto empresas de IA estão adotando cada vez mais uma abordagem top-down com modelos de entrega high-touch e high-trust
- Exemplos de aplicações agentes surgindo em todos os setores da economia do conhecimento
- Harvey: advogado de IA
- Glean: assistente de trabalho com IA
- Factory: engenheiro de software com IA
- Abridge: escriba médico com IA
- XBOW: testador de intrusão com IA
- Sierra: agente de suporte ao cliente com IA
- Ao reduzir o custo marginal de oferecer esses serviços ao nível da forte queda dos custos de inferência, as aplicações agentes estão expandindo e criando novos mercados
- A XBOW é um bom exemplo:
- A XBOW está criando um “pentester” de IA
- “Pentest”, ou teste de intrusão, é um ataque cibernético simulado contra um sistema computacional, realizado para que empresas avaliem seus próprios sistemas de segurança
- Antes da Generative AI, como o pentest humano era caro — trabalho manual feito por profissionais qualificados — as empresas só contratavam pentesters em situações limitadas, como quando isso era exigido para compliance
- Mas agora a XBOW está demonstrando pentests automatizados com base em LLMs de raciocínio de ponta, com desempenho comparável ao dos pentesters humanos mais qualificados
- Isso amplia o mercado de pentest e abre a possibilidade de testes contínuos para empresas de todos os tamanhos e perfis
O que isso significa para o setor de SaaS?
- Quando nos encontramos com LPs no início deste ano, a pergunta que mais ouvimos foi: "A transição para IA vai destruir as empresas de nuvem já estabelecidas?"
- Começamos com uma hipótese-base forte de que "não"
- A disputa clássica entre startups e incumbentes é como uma corrida em que as startups constroem distribuição e os incumbentes constroem produto
- Será que empresas jovens com um produto incrível conseguem chegar aos clientes antes que os incumbentes, que já dominam o cliente, lancem um produto incrível?
- Considerando que a maior parte da magia da IA vem dos modelos fundacionais, nossa hipótese-base era "não"
- Os incumbentes têm tanto acesso aos modelos fundacionais quanto as startups e, além disso, contam com vantagens já existentes em dados e distribuição, então tendem a se sair bem
- A principal oportunidade das startups não é substituir empresas de software já estabelecidas, mas atacar o conjunto de tarefas que podem ser automatizadas
- Mas já não estamos tão confiantes nisso
- Veja o que foi mencionado acima sobre arquitetura cognitiva
- É preciso uma enorme quantidade de engenharia para transformar as capacidades brutas dos modelos em soluções de negócio end-to-end convincentes e confiáveis
- Será que estamos subestimando drasticamente o que significa ser "AI native"?
- Há 20 anos, as empresas de software on-premise zombavam da ideia de SaaS
- "Não é nada demais. Nós também podemos operar nossos próprios servidores e oferecer isso pela internet!"
- Em termos conceituais era simples, mas o que veio depois foi uma reinvenção completa do negócio:
- EPD migrou do modelo waterfall e de PRDs para desenvolvimento ágil e testes A/B
- GTM migrou de vendas corporativas top-down e jantares com steak para PLG bottom-up e product analytics
- O modelo de negócios migrou de ASP alto e fluxos de manutenção para NDR alto e precificação baseada em uso
- Pouquíssimas empresas on-premise conseguiram fazer a transição com sucesso
- A IA pode ser um ponto de inflexão semelhante ao SaaS? A oportunidade da IA pode ser vender trabalho e, ao mesmo tempo, substituir software?
- Com a Day.ai, conseguimos enxergar um vislumbre do futuro
- A Day é uma CRM AI native
- Integradores de sistemas ganham bilhões de dólares configurando Salesforce para atender às necessidades dos clientes
- A Day cria automaticamente um CRM perfeitamente adaptado ao negócio do cliente apenas com acesso a e-mail e calendário, além das respostas a um questionário de uma página
- Ainda não tem todos os recursos, mas a magia de um CRM gerado automaticamente que se mantém sempre atualizado sem intervenção humana já está levando as pessoas a decidirem migrar
Setor de investimentos
- Onde os investidores estão dedicando tempo e alocando capital?
- Infraestrutura
- Essa é a área dos hyperscalers
- É guiada mais por comportamento de teoria dos jogos do que por análise econômica
- Não é uma área adequada para investidores de venture capital
- Modelos
- É a área em que atuam hyperscalers e investidores financeiros (FI)
- Os hyperscalers investem usando seus balanços patrimoniais para gerar retorno, de uma forma que acaba voltando como custo computacional para o negócio de nuvem
- Investidores financeiros são influenciados por um viés de "se encantar com a ciência"
- Esses modelos são muito interessantes e as equipes são excelentes, mas a lógica econômica é ignorada
- Ferramentas para desenvolvedores e software de infraestrutura
- Menos interessante para investidores estratégicos, mas mais atraente para investidores de venture capital
- Na transição para a nuvem, cerca de 15 empresas com mais de US$ 1 bilhão em receita foram criadas nessa camada
- Espera-se algo semelhante na transição para IA
- Aplicações
- É a camada mais interessante para investidores de venture capital
- Durante a transição para a nuvem, cerca de 20 empresas da camada de aplicações com mais de US$ 1 bilhão em receita foram criadas
- Um número parecido de empresas surgiu na transição mobile, e espera-se uma tendência semelhante nesta transição para IA
Considerações finais
- Na próxima fase da IA generativa, espera-se que o impacto de pesquisa e desenvolvimento (P&D) em raciocínio se espalhe de forma rápida e profunda pela camada de aplicações
- Arquiteturas cognitivas tradicionais incluíam principalmente técnicas de "remover restrições" (
unhobbling), mas agora essas capacidades estão sendo incorporadas ao próprio modelo, o que deve tornar aplicações baseadas em agentes mais sofisticadas e robustas
- Nos laboratórios, Reasoning e computação em Inference-Time continuarão sendo temas importantes, e agora que surgiram novas leis de escala, começa a próxima disputa
- Mas em domínios específicos, ainda é difícil coletar dados do mundo real e codificar arquiteturas cognitivas especializadas para o domínio e para a aplicação
- Fornecedores de aplicativos de última milha podem estar em vantagem para resolver esses problemas
- No futuro, é possível que surjam sistemas multiagentes como o Droid da Factory, que se espalhem como uma forma de modelar processos de raciocínio e aprendizado social
- Espera-se que sistemas multiagentes consigam realizar mais trabalho ao formar equipes capazes de executar várias tarefas ao mesmo tempo
- O momento que muita gente espera é o 'Move 37' da IA generativa, isto é, o instante em que um sistema de IA geral demonstra um comportamento super-humano inesperado, como o AlphaGo fez na partida contra Lee Sedol
- Mesmo que esse momento chegue, isso não significa que a IA "ganhe consciência", mas sim que ela pode adquirir a capacidade de simular os processos de percepção, raciocínio e ação para explorar de maneiras originais e úteis
- Isso pode ser AGI (autonomia completa da inteligência artificial), e não como um evento único, mas como a próxima etapa da tecnologia
4 comentários
É empolgante pensar em que tipos de problemas poderão ser resolvidos com uma inteligência artificial cada vez mais inteligente.
Se um modelo puder pensar por muito tempo e resolver a hipótese de Riemann, o impacto será enorme.
É meio engraçado terem mencionado o Zuckerberg em vez da Meta kkk
Caso não esteja explicitamente indicado no texto-resumo, por via das dúvidas vale registrar que Sistema 1 e Sistema 2 são conceitos apresentados no livro Rápido e Devagar: Duas Formas de Pensar (Thinking, Fast and Slow).
Sistema 1: pensamento rápido, que leva à ação de forma inconsciente ou intuitiva, sem reflexão profunda, ex.) dirigir, caminhar
Sistema 2: pensamento lento, que exige raciocínio lógico e reflexão cuidadosa, ex.) cálculo mental