Revisão anual de 2025 sobre LLMs, por Andrej Karpathy

(karpathy.bearblog.dev)

21 pontos por GN⁺ 2025-12-21 | 2 comentários | Compartilhar no WhatsApp

2025 marcou a ascensão do aprendizado por reforço com recompensas verificáveis (RLVR) como uma nova etapa central no treinamento de LLMs, adicionada ao pipeline tradicional de pré-treinamento–SFT–RLHF
Em ambientes verificáveis como matemática e quebra-cabeças de código, os LLMs passaram a desenvolver por conta própria estratégias de raciocínio, aprendendo formas de resolver problemas que, para humanos, parecem “pensamento”
O Cursor definiu uma nova camada de aplicativos de LLM, mostrando como orquestrar chamadas complexas de LLM e fazer engenharia de contexto em verticais específicas
O Claude Code surgiu como o primeiro caso realmente convincente de um agente de LLM rodando no computador local do usuário, propondo um novo paradigma de interação com IA
O Vibe Coding passou a permitir que até não especialistas criem programas apenas em inglês, sinalizando a democratização do desenvolvimento de software e mudanças na definição das profissões

1. A ascensão do aprendizado por reforço com recompensas verificáveis (RLVR)

Até o início de 2025, a stack de produção de LLMs era composta por três etapas: pré-treinamento (Pretraining), ajuste fino supervisionado (SFT) e aprendizado por reforço com feedback humano (RLHF)
O RLVR (Reinforcement Learning from Verifiable Rewards) foi adicionado como uma nova etapa principal, treinando LLMs com recompensas automaticamente verificáveis em tarefas como matemática e quebra-cabeças de código
Os LLMs passaram a adquirir espontaneamente um comportamento semelhante a “raciocínio”, decompondo problemas em etapas intermediárias de cálculo e desenvolvendo várias estratégias de resolução
- Essas estratégias eram difíceis de alcançar no paradigma anterior, porque não estava claro qual seria o traço de raciocínio ideal
- O LLM precisa descobrir por si mesmo a forma que funciona melhor para ele por meio da otimização da recompensa
Diferentemente de SFT/RLHF, o RLVR permite uma otimização muito mais longa sobre funções de recompensa objetivas e impossíveis de trapacear
Devido ao alto capability/$ do RLVR, recursos computacionais originalmente destinados ao pré-treinamento foram realocados para RLVR
- A maior parte do avanço de capacidade em 2025 foi definida por aplicar execuções de RL mais longas a LLMs de tamanho semelhante
Surgiu um novo controle — e uma nova lei de escala — de computação em tempo de teste, permitindo ajustar capacidades ao gerar rastros de raciocínio mais longos e aumentar o “tempo de pensar”
O OpenAI o1 (fim de 2024) foi a primeira demonstração de um modelo RLVR, e o lançamento do o3 (início de 2025) foi o ponto de inflexão em que a diferença passou a ser intuitivamente perceptível

2. Fantasmas vs. animais / inteligência irregular (Jagged Intelligence)

Em 2025, começamos a entender de forma mais intuitiva a “forma” da inteligência dos LLMs
LLMs não são como “evoluir/fazer crescer um animal”, mas sim como “invocar um fantasma”
- Como a arquitetura neural, os dados de treinamento, os algoritmos de treinamento e as pressões de otimização são todos diferentes, isso cria entidades muito distintas no espaço das inteligências
Redes neurais humanas foram otimizadas para a sobrevivência da espécie na selva, enquanto redes neurais de LLMs foram otimizadas para imitar o texto da humanidade, acumular recompensas em quebra-cabeças matemáticos e obter upvotes no LM Arena
Com a possibilidade de aplicar RLVR em domínios verificáveis, as capacidades dos LLMs passaram a apresentar “picos” nessas áreas, exibindo características de desempenho irregulares
- Ao mesmo tempo, eles podem agir como um gênio polímata e como um aluno confuso do ensino fundamental, e ainda ser enganados em segundos por um jailbreak que vaza dados
Houve uma perda de confiança e desinteresse em benchmarks
- Benchmarks são, quase por definição, ambientes verificáveis e por isso ficam imediatamente vulneráveis ao RLVR e a formas fracas de geração de dados sintéticos
- No processo de benchmaxxing, equipes passam a construir ambientes próximos ao espaço de embedding do benchmark para cobri-lo
- Aprender o conjunto de teste virou uma nova habilidade
Como seria uma situação em que “todos os benchmarks são superados, mas ainda não se chegou à AGI”?
Artigos relacionados

3. Cursor / a nova camada dos apps de LLM

Com o crescimento acelerado do Cursor, revelou-se uma nova camada de “aplicativos de LLM”
- A expressão “Cursor for X” começou a se popularizar
Apps de LLM como o Cursor agrupam e orquestram chamadas de LLM para uma vertical específica
1. Fazem engenharia de contexto
2. Orquestram várias chamadas de LLM em DAGs cada vez mais complexos, equilibrando desempenho e custo
3. Fornecem uma GUI específica da aplicação para human-in-the-loop
4. Oferecem um “slider de autonomia”
Houve muito debate sobre quão “grossa” é essa nova camada de apps
- Discutiu-se se os laboratórios de LLM ocupariam todas as aplicações ou se ainda haveria espaço para apps de LLM
Laboratórios de LLM em geral tendem a produzir algo comparável a um universitário competente, mas espera-se que apps de LLM os organizem, ajustem e ativem como verdadeiros especialistas em verticais específicas ao fornecer dados privados, sensores, atuadores e loops de feedback

4. Claude Code / a IA residente no computador

O Claude Code (CC) surgiu como a primeira demonstração convincente de um agente de LLM
- Ele conecta uso de ferramentas e raciocínio em um loop para resolver problemas de forma ampliada
O CC roda no computador do usuário junto com ambiente privado, dados e contexto
A OpenAI direcionou mal seus primeiros esforços com Codex/agentes ao focar em containers na nuvem orquestrados pelo ChatGPT
- O foco foi na nuvem, e não simplesmente em localhost
Embora um enxame de agentes rodando na nuvem pareça o “endgame da AGI”, hoje vivemos um mundo intermediário, lento e de saltos de capacidade irregulares
- Nesse cenário, faz mais sentido rodar agentes diretamente no computador do desenvolvedor
A distinção importante não é onde o “trabalho de IA” é executado, mas sim o fato de já existir um computador ligado e pronto, com instalações, contexto, dados, segredos, configuração e interação de baixa latência
A Anthropic entendeu exatamente essa prioridade e empacotou o CC em um formato de CLI conciso
- Surge um novo paradigma de interação em que a IA não é um site visitado como o Google, mas uma pequena alma/fantasma “residente” no computador

5. Vibe Coding

2025 foi o ano em que a IA ultrapassou o limiar de capacidade para criar vários programas impressionantes apenas em inglês
- Passou a ser possível programar quase esquecendo que o código existe
O termo “vibe coding” foi cunhado em um tweet, sem que se previsse o quanto ele se espalharia
Com o vibe coding, programar deixa de ser um domínio exclusivo de especialistas altamente treinados e passa a ser algo que qualquer pessoa pode fazer
Diferentemente de outras tecnologias, os LLMs são um caso em que pessoas comuns se beneficiam muito mais do que especialistas, empresas ou governos
O vibe coding não só dá acesso à programação para o público em geral, como também permite que profissionais treinados escrevam muito mais software que, de outra forma, não seria escrito (software feito por vibe coding)
Exemplos concretos:
- Em nanochat, foi feito por vibe coding um tokenizador BPE customizado e altamente eficiente em Rust, sem adoção de bibliotecas existentes nem estudo aprofundado de Rust
- menugen, llm-council, reader3, HN time capsule e outras coisas que se gostaria que existissem foram criadas por vibe coding como demos rápidas de app
- Fez-se vibe coding de um aplicativo inteiro descartável só para encontrar um único bug — o código de repente ficou gratuito, temporário, flexível e descartável
O vibe coding vai terraformar o software e mudar a definição das profissões

6. Nano Banana / GUI de LLM

O Nano Banana do Google Gemini foi um dos modelos de mudança de paradigma mais surpreendentes de 2025
Na visão de que LLMs representam o próximo grande paradigma de computação, análogo aos computadores dos anos 1970–80, inovações semelhantes devem acontecer por razões fundamentalmente semelhantes
- Devem surgir equivalentes de computação pessoal, microcontroladores (núcleos cognitivos), internet (de agentes) etc.
Do ponto de vista de UI/UX, “conversar” com um LLM se parece com dar comandos em um console de computador dos anos 1980
Texto é uma representação bruta de dados preferida por computadores (e LLMs), mas não é o formato preferido das pessoas
- Especialmente na entrada, as pessoas não gostam de ler texto — é lento e exige esforço
As pessoas gostam de consumir informação de forma visual e espacial, e foi por isso que GUIs foram inventadas na computação tradicional
Da mesma forma, LLMs precisam se comunicar em formatos preferidos pelos humanos, como imagens, infográficos, slides, quadros brancos, animações/vídeos, apps web etc.
As versões iniciais disso hoje são emojis e Markdown — títulos, negrito, itálico, listas, tabelas etc., que “enfeitam visualmente” o texto e organizam sua disposição
O Nano Banana oferece a primeira pista inicial de como pode ser uma GUI de LLM
- O importante não é só a geração de imagem em si, mas a capacidade combinada em que geração de texto, geração de imagem e conhecimento de mundo ficam todos entrelaçados nos pesos do modelo

TLDR; resumo geral

2025 foi um ano interessante e um pouco surpreendente para os LLMs
Os LLMs emergiram como um novo tipo de inteligência: muito mais inteligentes do que se esperava e, ao mesmo tempo, muito mais estúpidos do que se imaginava
Ainda assim, os LLMs são extremamente úteis, e a sensação é de que a indústria atual ainda não explora nem 10% do seu potencial com o nível tecnológico de hoje
Há uma quantidade imensa de ideias que valem ser testadas, e conceitualmente este campo ainda parece ter um longo caminho pela frente
Mesmo parecendo paradoxal, a crença é de que haverá avanços rápidos e contínuos daqui para frente, ao mesmo tempo em que ainda há muito trabalho a fazer

2 comentários

laeyoung 2025-12-21

"vibe coding" de demos rápidos de apps com coisas que eu gostaria que existissem, como menugen, llm-council, reader3 e HN time capsule

Como era de se esperar do pai do vibe coding, as coisas que ele faz com vibe coding são muito diferentes das coisinhas triviais que eu faço. 🤣

GN⁺ 2025-12-21

Comentários no Hacker News

Para mim, a inovação mais impressionante deste ano foi o Claude Code
O Cursor foi uma boa prova de conceito, mas o que realmente me fez usar LLM para programar foi o Claude Code
O código que o Claude gera é quase igual ao código que eu mesmo escreveria, como se ele estivesse lendo meus pensamentos
Por isso, também é fácil fazer a manutenção do código que o Claude produz
Consigo prever o estilo do código em uns 90~95%, e ele escreve muito mais rápido do que eu
O Gemini também é impressionante, mas o Nano Banana em especial é útil para design gráfico
Ainda não usei Gemini para programação. O Claude Code é bom demais, então se eu programasse ainda mais rápido talvez isso até causasse fadiga de decisão
Eu prefiro não apressar decisões de arquitetura ou UX e começar a implementar só depois de pensar por um ou dois dias. Porque, quando você começa a seguir uma direção, é difícil voltar atrás, e acaba insistindo numa escolha errada por causa da falácia do custo afundado
- Hoje em dia quase não vejo motivo para usar Cursor
  Instalei o plugin do Claude Code no IntelliJ IDEA, então uso a IDE só para explorar ou revisar código
  Já nem lembro da última vez em que escrevi mais de duas linhas de código com as próprias mãos
  Com Claude Code, minha produtividade aumentou pelo menos 5x, e como o custo de escrever testes ficou quase zero, a cobertura de testes também melhorou muito
  Estou usando um fluxo de trabalho completo com agente de IA: planejo com o Claude, faço perguntas, peço a implementação, reviso e solicito ajustes
  Não existe codificação manual. Zero total
- O Nano Banana Pro é uma ferramenta realmente insana se você souber usá-la direito
  Ainda é difícil acreditar que isso foi disponibilizado publicamente
- No começo, entrei em programação com agentes usando o plano de coding do GLM (cerca de 2 dólares por mês)
  Mas, como eu sempre pedia para o Claude deixar o código mais elegante e legível, acabei simplesmente migrando para o Claude Code
  O GLM chega bem perto se você usar bons prompts, mas se por 0,6 dólar por dia você pode parar de se preocupar com isso, então nem vale a pena pensar muito
- Acabei ficando no Cursor porque não tenho tempo para avaliar uma ferramenta nova todo mês
  Fico curioso sobre o que estou deixando passar usando o mesmo modelo
Gosto dos textos do Karpathy, mas hoje em dia, quando vejo estruturas de frase no estilo de LLM como “It’s not X, it’s Y”, eu reajo com um arrepio quase instintivo
Três anos atrás isso não me incomodava, mas agora esse estilo parece completamente estragado
- Sim, agora que isso foi apontado, eu também não consigo mais deixar de reparar nesse estilo
- Antes eu usava muito travessão (—) nas frases, mas as pessoas começaram a dizer que meus textos “pareciam escritos por IA”, então tive de mudar meu jeito de escrever
- Vim para ler o texto do Karpathy, mas agora estou pensando que talvez fosse melhor só perguntar direto para um LLM
- Eu já odiava esse tipo de frase antes mesmo dos LLMs
  Chamo frases como “It’s not just a website…” de gordura retórica (rhetorical fat)
  Se você remove essa gordura, a frase fica mais seca, mas também mais clara
  Expressões como “little spirit”, em especial, soam exageradas e me fazem revirar os olhos
  Claro, o autor provavelmente está só enfeitando a frase para dar ênfase, mas isso não combina com meu ideal de escrita, então me causa rejeição
  Frases como “It’s not just about image generation…” criam uma tensão conceitual desnecessária
  Acho melhor escrever simplesmente “a geração de imagens fica mais interessante quando se combina com geração de texto”
- Agora que passei a reparar nisso, ficou difícil aproveitar a internet
Foi uma análise excelente e realista
Essa ideia de que “os LLMs são mais inteligentes e ao mesmo tempo mais burros do que se esperava” me preocupa
Como saber qual dos dois lados você vai encontrar?
Em programação, é fácil detectar erros, mas em áreas gerais isso não é bem mais difícil?
E sobre a afirmação de que “pessoas comuns se beneficiam mais dos LLMs do que especialistas”, no passado também havia essa expectativa com AppleScript, VB e programação visual, mas no fim a IA está sendo usada como um mecanismo de busca inteligente
Só que justamente nessa área a alucinação (hallucination) é mais forte, e isso me parece um problema. Fico curioso sobre a solução
Gosto da postura otimista do Andrej, mas também queria ouvir a visão dele sobre como a concentração de poder na indústria mudou em 2025, e sobre temas como open source, inferência local e limitações de hardware
Por exemplo, ele disse que o Claude Code “roda localmente”, mas na prática só a TUI é local e a inferência acontece na nuvem
Fico curioso para saber como esse tipo de arquitetura vai evoluir depois de 2026
- O ponto principal do CC é sobre dados e contexto do ambiente, não sobre onde o processamento acontece
  A parte incômoda de configurações na nuvem não tem a ver com computação, e sim com UI/UX e o loop do usuário
- O llama.cpp agora suporta o formato de mensagens da Anthropic e pode ser usado junto com o Claude Code
- Um dos agentes de programação locais mais interessantes é o OpenAI Codex
  Ele pode rodar com modelos gpt-oss hospedados no Ollama
  Algo como codex --oss -m gpt-oss:20b, e também dá para usar modelos maiores (120b)
- Quando Karpathy fala em “agentes que rodam localmente”, ele não está falando de um serviço web como LangChain, mas de um wrapper de software (harness) que chama a API de um LLM
  Esse agente chama Bash, lida com o sistema de arquivos e consegue fazer quase qualquer coisa no sistema operacional
  Ou seja, o modelo é o cérebro distante, e o agente é como um traje mecânico
- Acho que a parte sobre Claude Code ficou um pouco ambígua
  Parece que ele quis dizer que o agente roda localmente, não a inferência
  Enquanto a OpenAI projetou o Codex com foco em nuvem, o CC adotou uma abordagem local-first
  Mas essa distinção precisaria ser explicada de forma bem mais clara
Sinto que a metáfora do RLVR usada pelo Karpathy, de “criar um animal” vs. “invocar um fantasma”, é um modelo perfeito para explicar a atual inteligência irregular (jagged intelligence)
Não estamos criando um sobrevivente geral, e sim superotimizando só alguns domínios específicos com base em recompensas verificáveis
E também me identifiquei com a ideia de software descartável feito por vibe coding
Esse fluxo de criar um app temporário só para depurar um problema e depois apagar tudo realmente parece uma mudança de verdade
- Mas eu não acho que a metáfora “animal vs. fantasma” seja tão profunda assim
  Humanos e animais são seres realmente inteligentes, enquanto os LLMs apenas ecoam resultados humanos dentro de um intervalo estreito
  Para ser uma inteligência artificial de verdade, seriam necessárias características como autonomia, aprendizado contínuo, curiosidade e uma espécie de corporalidade virtual
  A maioria dos animais age por instinto, mas só seres com capacidade de aprendizado generalizado, como os humanos, têm inteligência real
- Só que o uso atual dos LLMs também depende de um nível de subsídio
  Ainda precisamos ver se essa criação de apps descartáveis vai continuar quando as pessoas tiverem de pagar o custo real
- Eu já uso assim há alguns meses. É realmente divertido
  Resumi isso no meu texto, e é uma stack que conclui o que o Jupyter começou
  Tem uma estrutura de fences funcionais, chamável e combinável
  É parecido com MCP, e basta aprender os padrões, sem necessidade de treinamento específico
  Existe até um funtor que conecta um método de ensino de piano do século XVIII com engenharia de contexto
Achei interessante a parte em que Karpathy fala que os LLMs deveriam se comunicar em formatos preferidos pelo usuário, como imagens, slides e quadros brancos
Mas, se um LLM criar uma UX nova para cada usuário toda vez, isso pode virar um inferno de interfaces imprevisíveis
Situações do tipo “o que Command-W faz neste app?” vão acontecer
- Por outro lado, alguns agentes recentes começaram a dar mais atenção à acessibilidade (accessibility)
  No caso do Codex, ele cuida disso com mais atenção do que um humano
- Se formos olhar como os humanos realmente se comunicam, acho que em 1º lugar vêm texto/voz e em 2º lugar imagens
- Mas, na verdade, os LLMs já resolveram esse problema
  O próprio LLM é a melhor UI
  Como entendem vários idiomas e conceitos abstratos, não há necessidade de gerar interfaces aleatórias
  Como usuário não anglófono, eu misturo palavras em alemão e ele ainda entende bem
Muitos influenciadores de IA afirmam com certeza que “a interface de texto vai desaparecer”, mas na prática a interface textual ainda continua central
- Alguns dias atrás, eu estava tentando cancelar a assinatura de uma ferramenta de modelagem 3D com IA e passei 5 minutos sem achar o botão
  No fim, ele estava escondido no menu de três pontinhos com baixo contraste dentro do cartão do plano
  Quando cliquei, abriu uma janela de conversa com chatbot de IA
  Só depois de digitar o prompt “unsubscribe” é que o botão apareceu
  Acho horrível trazer esse tipo de UX de atendimento telefônico automatizado para aplicativos
  Como engenheiro de frontend, essa tendência me assusta
- Ao longo da minha vida, parece que as pessoas passaram a digitar mais do que conversar
Fico curioso sobre o que o Andrej pensa dos modelos rápidos deste ano (Gemini 3 Flash, Grok 4 Fast)
Surgiram modelos tão rápidos, baratos e bons, mas a comunidade quase não parece dar atenção a eles
Para que a visão de interfaces visuais com LLM se concretize, esse tipo de modelo parece essencial
- Provavelmente esses modelos menores são versões destiladas (distillation) dos modelos grandes
  Imagino que tenham sido treinados com rastros de raciocínio (reasoning traces) gerados pelos modelos maiores
- Recomendo dar uma olhada nas pesquisas da Sasha Luccioni
2025 também foi o ano em que fantasmas começaram a assombrar os dados de treinamento
Agora, metade do X (Twitter) é composta por LLMs respondendo a outros LLMs
Ou seja, estamos vendo uma situação em que as chamadas acontecem dentro do próprio dataset
- Se alguém tiver alguma dica para distinguir essas contas de LLM, eu adoraria saber. Não quero discutir com bots
Concordo que o o3 foi um ponto de virada
Algumas pessoas disseram que o o3 e o o4-mini já eram basicamente nível gpt-5
Mas, como os nomes eram pouco familiares, eles não chamaram atenção, enquanto o gpt-5 acabou decepcionando por mostrar só uma melhoria incremental
O o4-mini talvez fosse inadequado como modelo padrão por ter uma linguagem conversacional meio estranha, mas acho que teria sido melhor colocá-lo no plano de 20 dólares com um nome como “gpt-5 pro”
- Também concordo. Quase ninguém tinha usado o o3 naquela época, e o nome estranho fez com que passasse despercebido
  Olhando agora em retrospecto, acho que aquele foi o momento de um lançamento realmente grande