30 pontos por xguru 2024-10-21 | 4 comentários | Compartilhar no WhatsApp
  • À medida que a revolução da IA generativa entra em seu segundo ano, a pesquisa está evoluindo do "pensamento rápido" para o "pensamento lento"
    • "Pensamento rápido" significa respostas rápidas pré-treinadas, enquanto "pensamento lento" significa fazer reasoning no momento da inferência
    • Essa evolução está dando origem a um novo tipo de aplicação de agentes
  • À medida que a camada de base do mercado de IA generativa se estabiliza, um pequeno número de grandes players como Microsoft/OpenAI, AWS/Anthropic, Meta e Google/DeepMind está liderando o mercado
    • Apenas grandes empresas com motores econômicos e capital maciço permanecem na disputa
    • A própria estrutura de mercado está se consolidando, e a previsão do próximo token ficará barata e abundante
  • Com a estabilização da estrutura do mercado de LLMs, surge uma nova fronteira
    • O foco está no desenvolvimento e na expansão de uma camada de raciocínio em que o pensamento de "Sistema 2" tem prioridade
    • Inspirada em modelos como o AlphaGo, essa camada busca dar aos sistemas de IA capacidades de raciocínio cuidadoso, resolução de problemas e cognição, indo além da simples correspondência de padrões
    • Novas arquiteturas cognitivas e interfaces de usuário estão moldando a forma como essa capacidade de raciocínio é entregue aos usuários e como eles interagem com ela

Strawberry Fields Forever

  • A atualização de modelo mais importante de 2024 é o o1 da OpenAI (antes conhecido como Q* e também chamado de Strawberry)
    • Isso não significa apenas que a OpenAI voltou ao topo dos rankings de qualidade de modelos, mas também que trouxe uma melhoria significativa para a arquitetura atual dominante
    • Mais especificamente, é o primeiro modelo com verdadeira "capacidade geral de raciocínio" alcançada por meio de computação em tempo de inferência
  • Modelos pré-treinados vs. computação em tempo de inferência
    • Modelos pré-treinados realizam previsão do próximo token usando enormes volumes de dados
    • Uma propriedade emergente da escala é o raciocínio básico, mas esse raciocínio é muito limitado
    • Computação em tempo de inferência significa pedir ao modelo que pare e pense antes de fornecer uma resposta
    • Isso exige mais computação no momento da inferência
    • A parte de "parar e pensar" é justamente o raciocínio

Comparação entre AlphaGo e LLMs

  • Em março de 2016, em Seul, o AlphaGo enfrentou a lenda do baduk Lee Sedol e criou um dos momentos mais importantes da história do deep learning
    • O AlphaGo mostrou ao mundo uma IA "que pensa", indo além de apenas imitar padrões
  • Diferenças entre o AlphaGo e sistemas anteriores de IA para jogos
    • Assim como os LLMs, o AlphaGo foi pré-treinado para imitar especialistas humanos por meio de uma base de cerca de 30 milhões de jogadas de partidas anteriores e de autojogo
    • Porém, em vez de fornecer uma reação imediata vinda de um modelo pré-treinado, o AlphaGo dedicava tempo para parar e pensar
    • Durante a inferência, o AlphaGo executava buscas ou simulações sobre uma ampla gama de cenários futuros potenciais, avaliava esses cenários e então respondia com o cenário (ou resposta) de maior valor esperado
    • Quanto mais tempo era dado ao AlphaGo, melhor ele performava
    • Sem nenhuma computação em tempo de inferência, o AlphaGo não conseguiria vencer os melhores jogadores humanos
  • Por que é difícil replicar o AlphaGo em LLMs
    • É difícil construir uma função de valor (value function) para avaliar respostas
    • No baduk, é possível simular a partida até o fim, verificar quem vence e então calcular o valor esperado da próxima jogada
    • Em programação, é possível testar o código e ver se ele funciona
    • Mas rascunhos de ensaios, roteiros de viagem ou resumos dos termos-chave de documentos longos são difíceis de avaliar
    • Esse é o motivo de o raciocínio ser difícil com as metodologias atuais e de o Strawberry ser relativamente forte em domínios mais próximos da lógica (como programação, matemática e ciência), mas não em áreas abertas e não estruturadas (como escrita)
  • Pesquisa para melhorar a capacidade de raciocínio do modelo Strawberry
    • A implementação real do Strawberry é fortemente protegida, mas a ideia central está relacionada ao aprendizado por reforço sobre cadeias de pensamento geradas pelo modelo
    • Auditar as cadeias de pensamento do modelo sugere que algo fundamental e interessante, semelhante à forma como humanos pensam e raciocinam, está acontecendo
    • Por exemplo, o o1 está mostrando a capacidade de voltar atrás quando fica travado, como uma propriedade emergente do escalonamento em tempo de inferência
    • Também demonstra capacidade de pensar sobre problemas como humanos (por exemplo, visualizar pontos em uma esfera para resolver um problema de geometria) e de pensar sobre problemas de novas formas (por exemplo, resolver problemas de competições de programação de maneira diferente dos humanos)
    • As equipes de pesquisa têm muitas ideias para avançar a computação em tempo de inferência, como novos métodos para calcular funções de recompensa e novas formas de reduzir a lacuna entre generator e verifier, a fim de melhorar a capacidade de raciocínio dos modelos
    • Em outras palavras, o aprendizado por reforço profundo voltou ao centro das atenções, e isso está tornando possível uma nova camada de raciocínio

Salto do Sistema 1 para o pensamento de Sistema 2

  • O salto de respostas instintivas pré-treinadas ("Sistema 1") para um raciocínio mais profundo e cuidadoso ("Sistema 2") é a próxima fronteira da IA
  • Não basta que o modelo simplesmente saiba algo
  • O modelo precisa parar por um momento, avaliar e raciocinar para tomar decisões em tempo real
  • O pré-treinamento corresponde à camada do Sistema 1
    • Seja aprendendo milhões de jogadas de baduk no AlphaGo ou petabytes de texto em escala de internet em LLMs, o objetivo do pré-treinamento é imitar padrões como o jogo humano ou a linguagem humana
    • Porém, imitação, por mais poderosa que seja, não é raciocínio verdadeiro
    • Em especial, ela não consegue pensar adequadamente em situações complexas e novas fora do conjunto de dados de treinamento
  • O pensamento de Sistema 2 é o foco da pesquisa de IA de ponta
    • Quando o modelo "para e pensa", ele não está apenas gerando padrões aprendidos nem despejando previsões com base em dados passados
    • Ele gera um conjunto de possibilidades, considera resultados potenciais e toma decisões com base em raciocínio
  • Uso apropriado do pensamento de Sistema 1 e Sistema 2
    • Em muitas tarefas, o pensamento de Sistema 1 é suficiente (por exemplo, pensar por mais tempo não ajuda a responder qual é a capital do Butão)
    • Porém, em problemas mais complexos, como avanços em matemática ou biologia, respostas rápidas e instintivas são insuficientes
    • Esses avanços exigem pensamento profundo, resolução criativa de problemas e, acima de tudo, tempo
    • O mesmo vale para a IA. Para resolver os problemas mais difíceis e significativos, ela precisa ir além de respostas rápidas dentro do conjunto de dados de treino e dedicar tempo para produzir o raciocínio ponderado que define o progresso humano

Nova lei de escala: o início da corrida pelo raciocínio

  • O insight mais importante do artigo do o1 da OpenAI é que surgiu uma nova lei de escala
  • A lei de escala do pré-treinamento de LLMs
    • O pré-treinamento de LLMs segue uma lei de escala bem compreendida
    • Quanto mais computação e dados são usados no pré-treinamento do modelo, melhor é o desempenho
  • A nova lei de escala da computação em tempo de inferência
    • O artigo do o1 abriu uma nova dimensão para escalar computação
    • Quanto mais tempo de inferência (ou computação em "tempo de teste") for dado ao modelo, mais sua capacidade de raciocínio melhora
  • O que acontece se os modelos puderem pensar por horas, dias ou décadas?
    • Será que eles poderiam resolver a hipótese de Riemann?
    • Poderiam responder à última pergunta de Asimov?
  • A transição de grandes clusters de pré-treinamento para a nuvem de inferência
    • Essa mudança vai nos levar do mundo dos grandes clusters de pré-treinamento para o da nuvem de inferência
    • A nuvem de inferência é um ambiente capaz de escalar computação dinamicamente de acordo com a complexidade da tarefa

Será que um único modelo vai dominar tudo?

  • O que acontece à medida que OpenAI, Anthropic, Google, Meta e outras expandem a camada de raciocínio e desenvolvem máquinas de raciocínio mais poderosas?
  • Será que um único modelo vai dominar tudo?
  • Uma hipótese era que uma empresa de modelo único ficaria poderosa demais e acabaria absorvendo todas as outras aplicações
    • Até agora, essa previsão se mostrou errada em dois aspectos
    • Primeiro, há muitos concorrentes na camada de modelos, competindo sem parar por capacidades SOTA
      • É possível que alguém consiga melhoria contínua de si mesmo por meio de autoaprendizado amplo em vários domínios e decole, mas ainda não há evidências disso
      • Em vez disso, a camada de modelos é um campo de competição feroz, e o preço por token do GPT-4 caiu 98% desde o último Developer Day
    • Segundo, os modelos estão tendo dificuldade para avançar para a camada de aplicações
      • Com exceção do ChatGPT, os modelos em geral falharam em se firmar como produtos revolucionários na camada de aplicações
      • Porque o mundo real é complexo
      • Pesquisadores brilhantes não querem entender fluxos de trabalho detalhados de ponta a ponta para todas as funções possíveis em todos os mercados verticais possíveis
      • É atraente e economicamente racional que os pesquisadores parem na API e deixem a complexidade do mundo real para o ecossistema de desenvolvedores
      • Isso é uma boa notícia para a camada de aplicações

O mundo real complexo: a necessidade de arquiteturas cognitivas personalizadas

  • A forma como um cientista planeja e executa ações para atingir seus objetivos é muito diferente da forma como um engenheiro de software trabalha
  • E até a forma como engenheiros de software trabalham varia de uma empresa para outra
  • Embora os laboratórios estejam expandindo ainda mais os limites do raciocínio horizontal de uso geral, ainda é necessário raciocínio específico de aplicação ou de domínio para entregar agentes de IA realmente úteis
  • O mundo real complexo exige muito raciocínio específico de domínio e de aplicação, algo que não pode ser codificado de forma eficiente em um modelo geral
  • O surgimento da arquitetura cognitiva
    • Arquitetura cognitiva se refere à forma de pensar do sistema, ou seja, ao fluxo de código e interações com modelos que recebe a entrada do usuário e executa ações ou gera respostas
    • No caso da Factory, por exemplo, cada produto “droid” tem uma arquitetura cognitiva personalizada que imita a forma de pensar humana para resolver tarefas específicas, como revisar pull requests ou elaborar e executar um plano de migração para atualizações de serviços backend-to-backend
    • Os droids da Factory analisam todas as dependências, propõem alterações de código relevantes, adicionam testes unitários e envolvem humanos para revisão
    • Depois, após a aprovação, executam as mudanças em todos os arquivos do ambiente de desenvolvimento e, se todos os testes passarem, fazem o merge do código
    • Isso se parece com a maneira humana de pensar, composta por uma série de tarefas distintas, e não por uma única resposta generalizada e de caixa-preta

O que está acontecendo nos apps?

  • Se você quer começar um negócio de IA, qual camada deve mirar?
    • Para competir na camada de infraestrutura, é preciso vencer a NVIDIA e os hyperscalers
    • Para competir na camada de modelos, é preciso vencer a OpenAI e Mark Zuckerberg
    • Para competir na camada de aplicações, é preciso vencer a TI corporativa e os integradores globais de sistemas
    • Competir na camada de aplicações parece ser o caminho mais viável
  • A oportunidade na camada de aplicações
    • Modelos fundacionais parecem mágicos, mas também são complexos
    • Empresas tradicionais não conseguem lidar com caixa-preta, alucinações e fluxos de trabalho improvisados
    • Consumidores veem um prompt em branco e não sabem o que pedir
    • Essa é a oportunidade da camada de aplicações
  • Há dois anos, muitas empresas da camada de aplicações eram criticadas por serem “apenas wrappers em cima do GPT-3”
    • Hoje, esses wrappers se mostraram uma das poucas formas saudáveis de construir valor sustentável
    • O que começou como “wrapper” evoluiu para “arquitetura cognitiva”
  • Características das empresas de IA da camada de aplicações
    • Não se trata simplesmente de colocar uma UI em cima de um modelo fundacional
    • Em geral, elas têm arquiteturas cognitivas sofisticadas, que incluem:
      • vários modelos fundacionais com algum tipo de mecanismo de roteamento no topo
      • bancos de dados vetoriais e/ou de grafos para RAG
      • guardrails para garantir conformidade
      • lógica de aplicação que imita formas de raciocínio por meio de workflows

Service-as-a-Software

  • A transição para a nuvem foi “Software-as-a-Service”. Empresas de software se tornaram provedoras de serviços em nuvem, e isso representou uma oportunidade de US$ 350 bilhões
  • Graças ao raciocínio de agentes, a transição da IA é “Service-as-a-Software”. Empresas de software estão transformando trabalho em software
  • Isso significa que o mercado-alvo não é o mercado de software, mas o mercado trilionário de serviços
  • O que significa vender trabalho
    • A empresa Sierra é um bom exemplo
    • Empresas B2C colocam a Sierra em seus sites para conversar com clientes
    • O job-to-be-done é resolver o problema do cliente
    • A Sierra cobra por problema resolvido
    • Não existe algo como “seat”. Há um trabalho a ser feito, a Sierra faz esse trabalho e cobra de acordo com isso
    • Essa é a verdadeira estrela-guia de muitas empresas de IA
  • A vantagem da Sierra e os desafios das outras empresas
    • A Sierra tem a vantagem de um modo de falha elegante: escalonamento para um atendente humano
    • Nem todas as empresas têm essa sorte
    • O novo padrão é primeiro implantar com human-in-the-loop e depois usar essa experiência para conquistar oportunidades de implantação em piloto automático, com human-out-of-the-loop
    • O GitHub Copilot é um bom exemplo disso

Um novo tipo de aplicação agente está começando a surgir

  • As novas capacidades de raciocínio da Generative AI estão começando a dar origem a um novo tipo de aplicação agente
  • Curiosamente, essas empresas da camada de aplicações têm uma cara diferente das antigas empresas de nuvem:
    • Empresas de nuvem miravam receita de software, enquanto empresas de IA miram receita de serviços
    • Empresas de nuvem vendiam software ($/seat), enquanto empresas de IA vendem trabalho ($/resultado)
    • Empresas de nuvem preferiam uma abordagem bottom-up com distribuição sem atrito, enquanto empresas de IA estão adotando cada vez mais uma abordagem top-down com modelos de entrega high-touch e high-trust
  • Exemplos de aplicações agentes surgindo em todos os setores da economia do conhecimento
    • Harvey: advogado de IA
    • Glean: assistente de trabalho com IA
    • Factory: engenheiro de software com IA
    • Abridge: escriba médico com IA
    • XBOW: testador de intrusão com IA
    • Sierra: agente de suporte ao cliente com IA
  • Ao reduzir o custo marginal de oferecer esses serviços ao nível da forte queda dos custos de inferência, as aplicações agentes estão expandindo e criando novos mercados
  • A XBOW é um bom exemplo:
    • A XBOW está criando um “pentester” de IA
    • “Pentest”, ou teste de intrusão, é um ataque cibernético simulado contra um sistema computacional, realizado para que empresas avaliem seus próprios sistemas de segurança
    • Antes da Generative AI, como o pentest humano era caro — trabalho manual feito por profissionais qualificados — as empresas só contratavam pentesters em situações limitadas, como quando isso era exigido para compliance
    • Mas agora a XBOW está demonstrando pentests automatizados com base em LLMs de raciocínio de ponta, com desempenho comparável ao dos pentesters humanos mais qualificados
    • Isso amplia o mercado de pentest e abre a possibilidade de testes contínuos para empresas de todos os tamanhos e perfis

O que isso significa para o setor de SaaS?

  • Quando nos encontramos com LPs no início deste ano, a pergunta que mais ouvimos foi: "A transição para IA vai destruir as empresas de nuvem já estabelecidas?"
  • Começamos com uma hipótese-base forte de que "não"
    • A disputa clássica entre startups e incumbentes é como uma corrida em que as startups constroem distribuição e os incumbentes constroem produto
    • Será que empresas jovens com um produto incrível conseguem chegar aos clientes antes que os incumbentes, que já dominam o cliente, lancem um produto incrível?
    • Considerando que a maior parte da magia da IA vem dos modelos fundacionais, nossa hipótese-base era "não"
    • Os incumbentes têm tanto acesso aos modelos fundacionais quanto as startups e, além disso, contam com vantagens já existentes em dados e distribuição, então tendem a se sair bem
    • A principal oportunidade das startups não é substituir empresas de software já estabelecidas, mas atacar o conjunto de tarefas que podem ser automatizadas
  • Mas já não estamos tão confiantes nisso
    • Veja o que foi mencionado acima sobre arquitetura cognitiva
    • É preciso uma enorme quantidade de engenharia para transformar as capacidades brutas dos modelos em soluções de negócio end-to-end convincentes e confiáveis
    • Será que estamos subestimando drasticamente o que significa ser "AI native"?
  • Há 20 anos, as empresas de software on-premise zombavam da ideia de SaaS
    • "Não é nada demais. Nós também podemos operar nossos próprios servidores e oferecer isso pela internet!"
    • Em termos conceituais era simples, mas o que veio depois foi uma reinvenção completa do negócio:
      • EPD migrou do modelo waterfall e de PRDs para desenvolvimento ágil e testes A/B
      • GTM migrou de vendas corporativas top-down e jantares com steak para PLG bottom-up e product analytics
      • O modelo de negócios migrou de ASP alto e fluxos de manutenção para NDR alto e precificação baseada em uso
    • Pouquíssimas empresas on-premise conseguiram fazer a transição com sucesso
  • A IA pode ser um ponto de inflexão semelhante ao SaaS? A oportunidade da IA pode ser vender trabalho e, ao mesmo tempo, substituir software?
  • Com a Day.ai, conseguimos enxergar um vislumbre do futuro
    • A Day é uma CRM AI native
    • Integradores de sistemas ganham bilhões de dólares configurando Salesforce para atender às necessidades dos clientes
    • A Day cria automaticamente um CRM perfeitamente adaptado ao negócio do cliente apenas com acesso a e-mail e calendário, além das respostas a um questionário de uma página
    • Ainda não tem todos os recursos, mas a magia de um CRM gerado automaticamente que se mantém sempre atualizado sem intervenção humana já está levando as pessoas a decidirem migrar

Setor de investimentos

  • Onde os investidores estão dedicando tempo e alocando capital?
  • Infraestrutura
    • Essa é a área dos hyperscalers
    • É guiada mais por comportamento de teoria dos jogos do que por análise econômica
    • Não é uma área adequada para investidores de venture capital
  • Modelos
    • É a área em que atuam hyperscalers e investidores financeiros (FI)
    • Os hyperscalers investem usando seus balanços patrimoniais para gerar retorno, de uma forma que acaba voltando como custo computacional para o negócio de nuvem
    • Investidores financeiros são influenciados por um viés de "se encantar com a ciência"
    • Esses modelos são muito interessantes e as equipes são excelentes, mas a lógica econômica é ignorada
  • Ferramentas para desenvolvedores e software de infraestrutura
    • Menos interessante para investidores estratégicos, mas mais atraente para investidores de venture capital
    • Na transição para a nuvem, cerca de 15 empresas com mais de US$ 1 bilhão em receita foram criadas nessa camada
    • Espera-se algo semelhante na transição para IA
  • Aplicações
    • É a camada mais interessante para investidores de venture capital
    • Durante a transição para a nuvem, cerca de 20 empresas da camada de aplicações com mais de US$ 1 bilhão em receita foram criadas
    • Um número parecido de empresas surgiu na transição mobile, e espera-se uma tendência semelhante nesta transição para IA

Considerações finais

  • Na próxima fase da IA generativa, espera-se que o impacto de pesquisa e desenvolvimento (P&D) em raciocínio se espalhe de forma rápida e profunda pela camada de aplicações
  • Arquiteturas cognitivas tradicionais incluíam principalmente técnicas de "remover restrições" (unhobbling), mas agora essas capacidades estão sendo incorporadas ao próprio modelo, o que deve tornar aplicações baseadas em agentes mais sofisticadas e robustas
  • Nos laboratórios, Reasoning e computação em Inference-Time continuarão sendo temas importantes, e agora que surgiram novas leis de escala, começa a próxima disputa
  • Mas em domínios específicos, ainda é difícil coletar dados do mundo real e codificar arquiteturas cognitivas especializadas para o domínio e para a aplicação
  • Fornecedores de aplicativos de última milha podem estar em vantagem para resolver esses problemas
  • No futuro, é possível que surjam sistemas multiagentes como o Droid da Factory, que se espalhem como uma forma de modelar processos de raciocínio e aprendizado social
  • Espera-se que sistemas multiagentes consigam realizar mais trabalho ao formar equipes capazes de executar várias tarefas ao mesmo tempo
  • O momento que muita gente espera é o 'Move 37' da IA generativa, isto é, o instante em que um sistema de IA geral demonstra um comportamento super-humano inesperado, como o AlphaGo fez na partida contra Lee Sedol
  • Mesmo que esse momento chegue, isso não significa que a IA "ganhe consciência", mas sim que ela pode adquirir a capacidade de simular os processos de percepção, raciocínio e ação para explorar de maneiras originais e úteis
  • Isso pode ser AGI (autonomia completa da inteligência artificial), e não como um evento único, mas como a próxima etapa da tecnologia

4 comentários

 
lsw4uto 2024-11-11

É empolgante pensar em que tipos de problemas poderão ser resolvidos com uma inteligência artificial cada vez mais inteligente.

 
aer0700 2024-10-27

Se um modelo puder pensar por muito tempo e resolver a hipótese de Riemann, o impacto será enorme.

 
pmc7777 2024-10-21

Para competir na camada de modelos, é preciso vencer a OpenAI e Mark Zuckerberg.

É meio engraçado terem mencionado o Zuckerberg em vez da Meta kkk

 
kotzen 2024-10-21

Caso não esteja explicitamente indicado no texto-resumo, por via das dúvidas vale registrar que Sistema 1 e Sistema 2 são conceitos apresentados no livro Rápido e Devagar: Duas Formas de Pensar (Thinking, Fast and Slow).
Sistema 1: pensamento rápido, que leva à ação de forma inconsciente ou intuitiva, sem reflexão profunda, ex.) dirigir, caminhar
Sistema 2: pensamento lento, que exige raciocínio lógico e reflexão cuidadosa, ex.) cálculo mental