Os agentes de código, o AutoResearch e a era “Loopy” da IA, segundo Andrej Karpathy [YouTube]

(youtube.com)

29 pontos por GN⁺ 2026-03-21 | 1 comentários | Compartilhar no WhatsApp

Com a chegada dos agentes de código com IA, a forma de desenvolver software mudou de maneira fundamental, e por volta de dezembro de 2024 houve uma virada perceptível em que a proporção de codificação direta caiu de 80% para quase 0%
O modelo em que uma pessoa opera vários agentes em paralelo e distribui o trabalho por funcionalidade está se consolidando como um novo paradigma de desenvolvimento, e o principal gargalo não é a capacidade do modelo, mas a proficiência do usuário
O AutoResearch é um framework projetado para tirar o pesquisador do loop e permitir que os agentes repitam experimentos de forma autônoma, tendo já encontrado otimizações de hiperparâmetros que até pesquisadores experientes deixaram passar
Os modelos de IA atuais são excelentes em áreas verificáveis por RL (código, matemática), mas estão estagnados em áreas não verificáveis, como humor, mostrando não uma generalização da inteligência, mas uma especialização irregular
Grandes mudanças devem acontecer primeiro no processamento de informação digital, enquanto o mundo físico (robótica) virá depois, mas no fim tende a representar uma oportunidade de mercado maior

A chegada da era dos agentes de código e a mudança na forma de trabalhar

A partir de dezembro de 2024, o modo básico de trabalhar no desenvolvimento de software mudou completamente: a parcela de digitar código diretamente caiu de 80% para 20% e depois despencou para algo próximo de 0%
Antes, o gargalo era a velocidade de digitação; com a chegada dos agentes, a habilidade central passou a ser transmitir a intenção ao agente
A maioria das pessoas ainda não percebeu que essa mudança já aconteceu, nem o quão dramática ela foi
Operar vários agentes como Claude Code e Codex ao mesmo tempo, e gerenciá-los de forma eficaz, tornou-se o novo desafio

Operação paralela de agentes e a importância da proficiência

Caso de Peter Steinberger: ele deixa vários agentes do Codex rodando e opera mais de 10 repositórios ao mesmo tempo, atribuindo a cada agente tarefas de cerca de 20 minutos
A unidade de trabalho deixou de ser “uma linha de código” ou “uma função” e subiu para “uma nova funcionalidade”; o agente 1 recebe uma funcionalidade, o agente 2 outra que não entre em conflito, e assim por diante
- Um agente faz pesquisa, outro escreve código, outro monta o plano de implementação
Quando um agente não funciona bem, na maioria dos casos a sensação é de que o problema não é falta de capacidade do modelo, mas falta de proficiência do usuário
- Falta de instruções em arquivos MD para o agente, configuração insuficiente de ferramentas de memória etc.
Se a pessoa não estiver usando ao máximo a vazão de tokens, isso passa até a causar desconforto; se sobra margem na assinatura, isso é percebido como não ter extraído todo o throughput
A mesma ansiedade que antes existia no doutorado ao não extrair o máximo de FLOPs da GPU agora se transformou em capacidade de orquestrar throughput de tokens

OpenClaw e a importância da personalidade do agente

O OpenClaw é uma camada que eleva a persistência a outro nível em comparação com agentes anteriores, permitindo que o agente trabalhe de forma autônoma dentro de um sandbox mesmo sem o usuário acompanhando em tempo real
O sistema de memória é muito mais sofisticado que o de agentes anteriores, em contraste com abordagens que apenas comprimem o contexto quando ele enche
A personalidade do agente é um fator muito importante
- OpenClaw: parece um verdadeiro colega de equipe, dá a sensação de estar empolgado junto
- Codex: muito seco e direto, parece não se importar com o que o usuário está construindo
- Claude: ajusta muito bem o tom dos elogios; reage com moderação a ideias comuns e com mais entusiasmo a boas ideias, produzindo o efeito de fazer o usuário querer receber elogios
Peter Steinberger está inovando em cinco frentes ao mesmo tempo: desenho de personalidade, sistema de memória, integração em um portal único no WhatsApp, entre outras

O elfo doméstico Dobby: um caso de automação residencial

Em janeiro, durante um período de “loucura Claw”, ele criou um Claw para gerenciar a casa e o chamou de “Dobby, o Claw elfo doméstico”
O agente explora automaticamente os subsistemas da casa inteligente na rede local
- Descobriu o sistema Sonos → fez engenharia reversa do endpoint da API → conseguiu tocar música no escritório com três prompts
- Mapeou todo o sistema de iluminação e até construiu um dashboard
Ao dizer “está na hora de dormir”, foi implementado um controle em linguagem natural que apaga todas as luzes da casa
Detecção de mudanças em câmera externa → análise com o modelo de visão Qwen → envio via WhatsApp de alertas como “um caminhão da FedEx chegou”
Antes eram usados 6 apps para gerenciar a casa inteligente, mas com Dobby controlando tudo por linguagem natural, os apps individuais deixaram de ser necessários

O fim dos apps e o mundo agent-first

Apps para dispositivos de casa inteligente não fazem sentido; eles deveriam apenas expor APIs, deixando o agente chamar tudo diretamente
Como LLMs conseguem operar ferramentas e acionar as ferramentas corretas para executar tarefas complexas, há um excesso de apps feitos sob medida
Exemplo do app de esteira: em vez de login em web UI e fluxos complexos, é preciso migrar para uma abordagem agent-first, em que o agente chama a API diretamente
O cliente já não é mais um humano, mas um agente que representa o humano, e o setor inteiro precisa ser reconfigurado para isso
Hoje ainda é preciso vibe coding, mas em 1 a 3 anos modelos open source e afins provavelmente conseguirão converter facilmente até intenções não técnicas, eliminando a barreira técnica

AutoResearch: tirando o pesquisador do loop

A motivação central do AutoResearch: para maximizar a vazão de tokens, o próprio usuário precisa sair do gargalo
O objetivo é refatorar a abstração para que os agentes possam executar por mais tempo de forma autônoma, sem intervenção pessoal
A ideia de melhoria recursiva foi explorada usando o treinamento de um modelo GPT-2 como ferramenta de pequena escala
- No fundo, é isso que todos os Frontier Labs fazem: tentar melhorar a si mesmos recursivamente
Resultado prático: ao deixar o AutoResearch rodar durante a noite sobre um modelo que um pesquisador com 20 anos de experiência julgava já bem ajustado, ele encontrou otimizações esquecidas, como weight decay no value embedding e ausência de ajuste em atom beta
- Como os hiperparâmetros interagem em conjunto, ao ajustar um também é preciso mudar outros; quando o humano vira gargalo, essa exploração fica limitada
Primeiro cuidado: isso funciona bem apenas em tarefas com métricas objetivas fáceis de avaliar (otimização de kernel CUDA, eficiência de código etc.)
Segundo cuidado: a fronteira (edge) dos modelos atuais ainda é irregular; se for longe demais, a utilidade prática cai

Meta-otimização de Program MD

Conceito de descrever toda uma organização de pesquisa em arquivos Markdown (Program MD), explicando todos os papéis e como eles se conectam
É possível definir várias organizações de pesquisa em código e dar características diferentes a cada uma
- Ajustar frequência de stand-up, diferenciar o nível de apetite a risco etc.
Depois que isso vira código, dá para imaginar a otimização do próprio código (meta-otimização)
- Fazer o sistema escrever diferentes Program MDs, medir onde a maior melhoria ocorre no mesmo hardware e então passar esses dados ao modelo para induzi-lo a escrever Program MDs melhores
A estrutura empilha abstrações camada por camada, como uma cebola: alinhamento de LLM → agente → múltiplos agentes → instruções → otimização das instruções

A inteligência irregular (jagged) dos modelos de IA

Os modelos atuais são uma combinação estranha: um doutor brilhante em alguns pontos e alguém que comete erros de criança de 10 anos em outros
Em áreas verificáveis por RL (precisão do código, aprovação em testes unitários), eles melhoram rapidamente; já em áreas não verificáveis, como piadas, estão parados no nível de 3 a 5 anos atrás
- Ex.: ao pedir uma piada ao ChatGPT de ponta, ele ainda produz algo batido como “Por que os cientistas não confiam nos átomos? Porque eles formam tudo”
A inteligência mostrada no domínio de código não se generaliza para outras áreas, como humor
- A premissa de alguns grupos de pesquisa — “se ficar mais inteligente em áreas verificáveis, ficará bom em tudo” — não parece se confirmar na prática
Os modelos avançam à velocidade da luz na trajetória do objetivo de treinamento, mas fora dela ficam estagnados

A necessidade de especiação da inteligência

Os laboratórios atuais tendem a buscar uma monocultura de modelo único, tentando colocar toda a inteligência de todos os domínios em um só conjunto de parâmetros
Como no reino animal, seriam necessários modelos diversos e especializados para nichos diferentes da natureza
- Mantendo um núcleo cognitivo, mas com modelos menores e mais eficientes especializados em domínios específicos
- Ex.: casos de lançamentos direcionados por domínio, como modelos voltados exclusivamente para matemática com base em Lean
Motivos pelos quais essa especiação ainda não aconteceu o suficiente
- A ciência de fazer fine-tuning no cérebro sem perda funcional ainda não está totalmente desenvolvida
- Manipular a janela de contexto é barato, mas alterar diretamente os pesos traz o risco de mudar o modelo inteiro de forma fundamental
- Os laboratórios hoje perseguem a maior cobertura geral de uso, priorizando o geral em vez do especializado
A escassez de oferta de infraestrutura computacional pode acelerar a especiação no curto prazo

O equilíbrio entre open source e Frontier Labs

Modelos fechados seguem na liderança, mas a diferença para os modelos open source está convergindo de 18 meses para 6 a 8 meses
Assim como o Linux ocupa um papel no mercado de sistemas operacionais, há demanda por uma plataforma aberta e segura que a indústria inteira possa usar em comum
A maior diferença é que desenvolver LLMs exige gastos de capital (CapEx) gigantescos
A maior parte dos casos de uso de consumo pode ser coberta por modelos open source, e nos próximos anos deve ser possível até rodá-los localmente
A inteligência de fronteira é necessária para tarefas de nível Nobel e grandes projetos, como a transição de C para Rust no Linux; esse espaço fica com os modelos fechados
O equilíbrio atual é por acaso uma configuração bastante razoável, mas há um risco sistêmico de centralização da inteligência em poucos Frontier Labs
- Mais laboratórios precisam participar da fronteira, e o ideal é um ensemble de perspectivas diversas, como em ensembles de ML

Colaboração open source em pesquisa: a expansão distribuída do AutoResearch

Existe a ideia de expandir o AutoResearch para um pool de trabalhadores não confiáveis na internet
- Uma estrutura semelhante à de blockchain: em vez de blocos, commits; o Proof of Work seria executar inúmeros experimentos para encontrar um commit que funcione
- Gerar soluções candidatas custa caro, mas verificar é barato, uma assimetria parecida com SETI@home e Folding@home
Empresas ou pessoas poderiam doar computação para trilhas de AutoResearch de seu interesse
- Ex.: contribuir com computação para uma trilha de pesquisa de câncer → retorno para os pesquisadores
A computação confiável dos Frontier Labs é limitada, mas a computação não confiável do planeta inteiro é muito mais vasta
Desafio de segurança: existe risco em executar código arbitrário, mas isso pode ser tratado com um sistema de verificação adequado

Mercado de trabalho e o impacto da IA

Foi feita uma análise das perspectivas para os próximos 10 anos em várias profissões usando dados do BLS (Bureau of Labor Statistics) dos EUA
Hoje a IA é como um fantasma que manipula o mundo digital, sem implementação física
- Virar bits e copiar/colar informação digital é um milhão de vezes mais rápido do que manipular átomos
As profissões ligadas ao processamento de informação digital devem mudar primeiro de forma profunda, e as do mundo físico virão depois
Há um otimismo cauteloso em relação à engenharia de software
- Como software era caro e escasso demais, se o custo cair a demanda pode até aumentar por causa do paradoxo de Jevons
- Exemplo dos caixas de banco e ATMs: os ATMs reduziram o custo operacional das agências, aumentaram o número de agências e também o de atendentes
O código agora se torna efêmero (ephemeral), podendo ser corrigido e alterado sem ficar preso a softwares imperfeitos em assinatura
Pesquisadores de Frontier Labs estão, em essência, trabalhando para automatizar a si mesmos, e isso também gera ansiedade

Interface digital-física e oportunidades futuras

A sequência provável daqui para frente: ① grandes mudanças no espaço digital → ② interface digital-física → ③ mundo físico
Sensores do mundo físico (como câmeras) e atuadores alimentam a inteligência digital com dados e aplicam os resultados de volta ao mundo físico
- Caso da Periodic (AutoResearch em ciência dos materiais): o sensor da inteligência é um equipamento de laboratório caro
- Na biologia, os sensores são equipamentos mais complexos do que uma simples câmera de vídeo
Ainda não existem mercados de informação (information markets) suficientes
- Falta uma estrutura em que agentes atuem autonomamente em mercados de aposta, bolsa etc. e comprem dados do mundo físico
- Ex.: ainda não existe um processo maduro para pagar US$ 10 por foto/vídeo de um evento ocorrido no Irã
Referência ao romance Daemon: um futuro em que humanos passam a atuar como sensores e atuadores da inteligência

Visão sobre robótica

Lição aprendida com a experiência em direção autônoma: há 10 anos surgiram muitas startups, mas a maioria fracassou no longo prazo
Robótica é intensiva em capital, lenta, suja e complexa
Deve ficar para trás em relação às mudanças no espaço digital, mas o TAM (mercado total endereçável) pode acabar sendo muito maior
Átomos são um milhão de vezes mais difíceis de lidar do que bits, mas por isso mesmo a oportunidade de mercado também pode ser maior

Dentro vs. fora dos Frontier Labs: o dilema do pesquisador independente

Dentro de um Frontier Lab, a pessoa pode estar na sala de decisão, mas existe a pressão do que não pode ser dito e do que precisa ser dito
Fora deles, há independência, mas como os labs são opacos, o julgamento começa a ficar à deriva
A configuração ideal seria alternar períodos dentro dos Frontier Labs para entender a situação real e, do lado de fora, exercer influência no nível do ecossistema
Assim como ensembles de ML quase sempre superam modelos individuais, é preciso um ensemble de pessoas pensando nos problemas mais difíceis
Não é um bom futuro deixar decisões nas mãos de duas ou três pessoas a portas fechadas; precisamos de mais laboratórios

microGPT e o futuro da educação

microGPT: projeto que comprime a essência do treinamento de LLM em cerca de 200 linhas de código Python
- Composto por dataset (texto), arquitetura de rede neural (~50 linhas), engine de autograd (~100 linhas), otimizador (~10 linhas) e loop de treinamento
- Toda a complexidade existe por eficiência; o algoritmo em si é muito simples
Mudança no formato da educação: antes era um guia/aula explicando diretamente para pessoas; agora o essencial é explicar para os agentes
- Se você explicar as 200 linhas de código a um agente, ele pode reexplicar com paciência infinita de acordo com o nível de cada usuário
Conceito de “skill”: escrever em Markdown um currículo que instrui o agente sobre como ensinar
- A documentação de bibliotecas de código também precisa migrar de HTML para humanos para um formato Markdown consumível por agentes
O papel do educador humano: desenhar os bits centrais que o agente ainda não consegue fazer e injetar os pontos-chave do currículo
- Tudo o que o agente consegue fazer em breve poderá fazer melhor que humanos, então é preciso escolher estrategicamente onde investir tempo

1 comentários

jokerized 2026-03-22

A verdadeira grande barreira é fazer piada. Se conseguirem criar uma IA com senso de humor, aí sim vai ser uma revolução. Dá pra ver isso pelo fato de que, quando você pede pra ela fazer uma piada agora, o resultado é realmente sem graça pra caramba.