- 2025 marcou a ascensão do aprendizado por reforço com recompensas verificáveis (RLVR) como uma nova etapa central no treinamento de LLMs, adicionada ao pipeline tradicional de pré-treinamento–SFT–RLHF
- Em ambientes verificáveis como matemática e quebra-cabeças de código, os LLMs passaram a desenvolver por conta própria estratégias de raciocínio, aprendendo formas de resolver problemas que, para humanos, parecem “pensamento”
- O Cursor definiu uma nova camada de aplicativos de LLM, mostrando como orquestrar chamadas complexas de LLM e fazer engenharia de contexto em verticais específicas
- O Claude Code surgiu como o primeiro caso realmente convincente de um agente de LLM rodando no computador local do usuário, propondo um novo paradigma de interação com IA
- O Vibe Coding passou a permitir que até não especialistas criem programas apenas em inglês, sinalizando a democratização do desenvolvimento de software e mudanças na definição das profissões
1. A ascensão do aprendizado por reforço com recompensas verificáveis (RLVR)
- Até o início de 2025, a stack de produção de LLMs era composta por três etapas: pré-treinamento (Pretraining), ajuste fino supervisionado (SFT) e aprendizado por reforço com feedback humano (RLHF)
- O RLVR (Reinforcement Learning from Verifiable Rewards) foi adicionado como uma nova etapa principal, treinando LLMs com recompensas automaticamente verificáveis em tarefas como matemática e quebra-cabeças de código
- Os LLMs passaram a adquirir espontaneamente um comportamento semelhante a “raciocínio”, decompondo problemas em etapas intermediárias de cálculo e desenvolvendo várias estratégias de resolução
- Essas estratégias eram difíceis de alcançar no paradigma anterior, porque não estava claro qual seria o traço de raciocínio ideal
- O LLM precisa descobrir por si mesmo a forma que funciona melhor para ele por meio da otimização da recompensa
- Diferentemente de SFT/RLHF, o RLVR permite uma otimização muito mais longa sobre funções de recompensa objetivas e impossíveis de trapacear
- Devido ao alto capability/$ do RLVR, recursos computacionais originalmente destinados ao pré-treinamento foram realocados para RLVR
- A maior parte do avanço de capacidade em 2025 foi definida por aplicar execuções de RL mais longas a LLMs de tamanho semelhante
- Surgiu um novo controle — e uma nova lei de escala — de computação em tempo de teste, permitindo ajustar capacidades ao gerar rastros de raciocínio mais longos e aumentar o “tempo de pensar”
- O OpenAI o1 (fim de 2024) foi a primeira demonstração de um modelo RLVR, e o lançamento do o3 (início de 2025) foi o ponto de inflexão em que a diferença passou a ser intuitivamente perceptível
2. Fantasmas vs. animais / inteligência irregular (Jagged Intelligence)
- Em 2025, começamos a entender de forma mais intuitiva a “forma” da inteligência dos LLMs
- LLMs não são como “evoluir/fazer crescer um animal”, mas sim como “invocar um fantasma”
- Como a arquitetura neural, os dados de treinamento, os algoritmos de treinamento e as pressões de otimização são todos diferentes, isso cria entidades muito distintas no espaço das inteligências
- Redes neurais humanas foram otimizadas para a sobrevivência da espécie na selva, enquanto redes neurais de LLMs foram otimizadas para imitar o texto da humanidade, acumular recompensas em quebra-cabeças matemáticos e obter upvotes no LM Arena
- Com a possibilidade de aplicar RLVR em domínios verificáveis, as capacidades dos LLMs passaram a apresentar “picos” nessas áreas, exibindo características de desempenho irregulares
- Ao mesmo tempo, eles podem agir como um gênio polímata e como um aluno confuso do ensino fundamental, e ainda ser enganados em segundos por um jailbreak que vaza dados
- Houve uma perda de confiança e desinteresse em benchmarks
- Benchmarks são, quase por definição, ambientes verificáveis e por isso ficam imediatamente vulneráveis ao RLVR e a formas fracas de geração de dados sintéticos
- No processo de benchmaxxing, equipes passam a construir ambientes próximos ao espaço de embedding do benchmark para cobri-lo
- Aprender o conjunto de teste virou uma nova habilidade
- Como seria uma situação em que “todos os benchmarks são superados, mas ainda não se chegou à AGI”?
- Artigos relacionados
3. Cursor / a nova camada dos apps de LLM
- Com o crescimento acelerado do Cursor, revelou-se uma nova camada de “aplicativos de LLM”
- A expressão “Cursor for X” começou a se popularizar
- Apps de LLM como o Cursor agrupam e orquestram chamadas de LLM para uma vertical específica
1. Fazem engenharia de contexto
2. Orquestram várias chamadas de LLM em DAGs cada vez mais complexos, equilibrando desempenho e custo
3. Fornecem uma GUI específica da aplicação para human-in-the-loop
4. Oferecem um “slider de autonomia”
- Houve muito debate sobre quão “grossa” é essa nova camada de apps
- Discutiu-se se os laboratórios de LLM ocupariam todas as aplicações ou se ainda haveria espaço para apps de LLM
- Laboratórios de LLM em geral tendem a produzir algo comparável a um universitário competente, mas espera-se que apps de LLM os organizem, ajustem e ativem como verdadeiros especialistas em verticais específicas ao fornecer dados privados, sensores, atuadores e loops de feedback
4. Claude Code / a IA residente no computador
- O Claude Code (CC) surgiu como a primeira demonstração convincente de um agente de LLM
- Ele conecta uso de ferramentas e raciocínio em um loop para resolver problemas de forma ampliada
- O CC roda no computador do usuário junto com ambiente privado, dados e contexto
- A OpenAI direcionou mal seus primeiros esforços com Codex/agentes ao focar em containers na nuvem orquestrados pelo ChatGPT
- O foco foi na nuvem, e não simplesmente em
localhost
- Embora um enxame de agentes rodando na nuvem pareça o “endgame da AGI”, hoje vivemos um mundo intermediário, lento e de saltos de capacidade irregulares
- Nesse cenário, faz mais sentido rodar agentes diretamente no computador do desenvolvedor
- A distinção importante não é onde o “trabalho de IA” é executado, mas sim o fato de já existir um computador ligado e pronto, com instalações, contexto, dados, segredos, configuração e interação de baixa latência
- A Anthropic entendeu exatamente essa prioridade e empacotou o CC em um formato de CLI conciso
- Surge um novo paradigma de interação em que a IA não é um site visitado como o Google, mas uma pequena alma/fantasma “residente” no computador
5. Vibe Coding
- 2025 foi o ano em que a IA ultrapassou o limiar de capacidade para criar vários programas impressionantes apenas em inglês
- Passou a ser possível programar quase esquecendo que o código existe
- O termo “vibe coding” foi cunhado em um tweet, sem que se previsse o quanto ele se espalharia
- Com o vibe coding, programar deixa de ser um domínio exclusivo de especialistas altamente treinados e passa a ser algo que qualquer pessoa pode fazer
- Diferentemente de outras tecnologias, os LLMs são um caso em que pessoas comuns se beneficiam muito mais do que especialistas, empresas ou governos
- O vibe coding não só dá acesso à programação para o público em geral, como também permite que profissionais treinados escrevam muito mais software que, de outra forma, não seria escrito (software feito por vibe coding)
- Exemplos concretos:
- Em nanochat, foi feito por vibe coding um tokenizador BPE customizado e altamente eficiente em Rust, sem adoção de bibliotecas existentes nem estudo aprofundado de Rust
- menugen, llm-council, reader3, HN time capsule e outras coisas que se gostaria que existissem foram criadas por vibe coding como demos rápidas de app
- Fez-se vibe coding de um aplicativo inteiro descartável só para encontrar um único bug — o código de repente ficou gratuito, temporário, flexível e descartável
- O vibe coding vai terraformar o software e mudar a definição das profissões
6. Nano Banana / GUI de LLM
- O Nano Banana do Google Gemini foi um dos modelos de mudança de paradigma mais surpreendentes de 2025
- Na visão de que LLMs representam o próximo grande paradigma de computação, análogo aos computadores dos anos 1970–80, inovações semelhantes devem acontecer por razões fundamentalmente semelhantes
- Devem surgir equivalentes de computação pessoal, microcontroladores (núcleos cognitivos), internet (de agentes) etc.
- Do ponto de vista de UI/UX, “conversar” com um LLM se parece com dar comandos em um console de computador dos anos 1980
- Texto é uma representação bruta de dados preferida por computadores (e LLMs), mas não é o formato preferido das pessoas
- Especialmente na entrada, as pessoas não gostam de ler texto — é lento e exige esforço
- As pessoas gostam de consumir informação de forma visual e espacial, e foi por isso que GUIs foram inventadas na computação tradicional
- Da mesma forma, LLMs precisam se comunicar em formatos preferidos pelos humanos, como imagens, infográficos, slides, quadros brancos, animações/vídeos, apps web etc.
- As versões iniciais disso hoje são emojis e Markdown — títulos, negrito, itálico, listas, tabelas etc., que “enfeitam visualmente” o texto e organizam sua disposição
- O Nano Banana oferece a primeira pista inicial de como pode ser uma GUI de LLM
- O importante não é só a geração de imagem em si, mas a capacidade combinada em que geração de texto, geração de imagem e conhecimento de mundo ficam todos entrelaçados nos pesos do modelo
TLDR; resumo geral
- 2025 foi um ano interessante e um pouco surpreendente para os LLMs
- Os LLMs emergiram como um novo tipo de inteligência: muito mais inteligentes do que se esperava e, ao mesmo tempo, muito mais estúpidos do que se imaginava
- Ainda assim, os LLMs são extremamente úteis, e a sensação é de que a indústria atual ainda não explora nem 10% do seu potencial com o nível tecnológico de hoje
- Há uma quantidade imensa de ideias que valem ser testadas, e conceitualmente este campo ainda parece ter um longo caminho pela frente
- Mesmo parecendo paradoxal, a crença é de que haverá avanços rápidos e contínuos daqui para frente, ao mesmo tempo em que ainda há muito trabalho a fazer
2 comentários
"vibe coding" de demos rápidos de apps com coisas que eu gostaria que existissem, como menugen, llm-council, reader3 e HN time capsule
Como era de se esperar do pai do vibe coding, as coisas que ele faz com vibe coding são muito diferentes das coisinhas triviais que eu faço. 🤣
Comentários no Hacker News
Para mim, a inovação mais impressionante deste ano foi o Claude Code
O Cursor foi uma boa prova de conceito, mas o que realmente me fez usar LLM para programar foi o Claude Code
O código que o Claude gera é quase igual ao código que eu mesmo escreveria, como se ele estivesse lendo meus pensamentos
Por isso, também é fácil fazer a manutenção do código que o Claude produz
Consigo prever o estilo do código em uns 90~95%, e ele escreve muito mais rápido do que eu
O Gemini também é impressionante, mas o Nano Banana em especial é útil para design gráfico
Ainda não usei Gemini para programação. O Claude Code é bom demais, então se eu programasse ainda mais rápido talvez isso até causasse fadiga de decisão
Eu prefiro não apressar decisões de arquitetura ou UX e começar a implementar só depois de pensar por um ou dois dias. Porque, quando você começa a seguir uma direção, é difícil voltar atrás, e acaba insistindo numa escolha errada por causa da falácia do custo afundado
Instalei o plugin do Claude Code no IntelliJ IDEA, então uso a IDE só para explorar ou revisar código
Já nem lembro da última vez em que escrevi mais de duas linhas de código com as próprias mãos
Com Claude Code, minha produtividade aumentou pelo menos 5x, e como o custo de escrever testes ficou quase zero, a cobertura de testes também melhorou muito
Estou usando um fluxo de trabalho completo com agente de IA: planejo com o Claude, faço perguntas, peço a implementação, reviso e solicito ajustes
Não existe codificação manual. Zero total
Ainda é difícil acreditar que isso foi disponibilizado publicamente
Mas, como eu sempre pedia para o Claude deixar o código mais elegante e legível, acabei simplesmente migrando para o Claude Code
O GLM chega bem perto se você usar bons prompts, mas se por 0,6 dólar por dia você pode parar de se preocupar com isso, então nem vale a pena pensar muito
Fico curioso sobre o que estou deixando passar usando o mesmo modelo
Gosto dos textos do Karpathy, mas hoje em dia, quando vejo estruturas de frase no estilo de LLM como “It’s not X, it’s Y”, eu reajo com um arrepio quase instintivo
Três anos atrás isso não me incomodava, mas agora esse estilo parece completamente estragado
Chamo frases como “It’s not just a website…” de gordura retórica (rhetorical fat)
Se você remove essa gordura, a frase fica mais seca, mas também mais clara
Expressões como “little spirit”, em especial, soam exageradas e me fazem revirar os olhos
Claro, o autor provavelmente está só enfeitando a frase para dar ênfase, mas isso não combina com meu ideal de escrita, então me causa rejeição
Frases como “It’s not just about image generation…” criam uma tensão conceitual desnecessária
Acho melhor escrever simplesmente “a geração de imagens fica mais interessante quando se combina com geração de texto”
Foi uma análise excelente e realista
Essa ideia de que “os LLMs são mais inteligentes e ao mesmo tempo mais burros do que se esperava” me preocupa
Como saber qual dos dois lados você vai encontrar?
Em programação, é fácil detectar erros, mas em áreas gerais isso não é bem mais difícil?
E sobre a afirmação de que “pessoas comuns se beneficiam mais dos LLMs do que especialistas”, no passado também havia essa expectativa com AppleScript, VB e programação visual, mas no fim a IA está sendo usada como um mecanismo de busca inteligente
Só que justamente nessa área a alucinação (hallucination) é mais forte, e isso me parece um problema. Fico curioso sobre a solução
Gosto da postura otimista do Andrej, mas também queria ouvir a visão dele sobre como a concentração de poder na indústria mudou em 2025, e sobre temas como open source, inferência local e limitações de hardware
Por exemplo, ele disse que o Claude Code “roda localmente”, mas na prática só a TUI é local e a inferência acontece na nuvem
Fico curioso para saber como esse tipo de arquitetura vai evoluir depois de 2026
A parte incômoda de configurações na nuvem não tem a ver com computação, e sim com UI/UX e o loop do usuário
Ele pode rodar com modelos gpt-oss hospedados no Ollama
Algo como
codex --oss -m gpt-oss:20b, e também dá para usar modelos maiores (120b)Esse agente chama Bash, lida com o sistema de arquivos e consegue fazer quase qualquer coisa no sistema operacional
Ou seja, o modelo é o cérebro distante, e o agente é como um traje mecânico
Parece que ele quis dizer que o agente roda localmente, não a inferência
Enquanto a OpenAI projetou o Codex com foco em nuvem, o CC adotou uma abordagem local-first
Mas essa distinção precisaria ser explicada de forma bem mais clara
Sinto que a metáfora do RLVR usada pelo Karpathy, de “criar um animal” vs. “invocar um fantasma”, é um modelo perfeito para explicar a atual inteligência irregular (jagged intelligence)
Não estamos criando um sobrevivente geral, e sim superotimizando só alguns domínios específicos com base em recompensas verificáveis
E também me identifiquei com a ideia de software descartável feito por vibe coding
Esse fluxo de criar um app temporário só para depurar um problema e depois apagar tudo realmente parece uma mudança de verdade
Humanos e animais são seres realmente inteligentes, enquanto os LLMs apenas ecoam resultados humanos dentro de um intervalo estreito
Para ser uma inteligência artificial de verdade, seriam necessárias características como autonomia, aprendizado contínuo, curiosidade e uma espécie de corporalidade virtual
A maioria dos animais age por instinto, mas só seres com capacidade de aprendizado generalizado, como os humanos, têm inteligência real
Ainda precisamos ver se essa criação de apps descartáveis vai continuar quando as pessoas tiverem de pagar o custo real
Resumi isso no meu texto, e é uma stack que conclui o que o Jupyter começou
Tem uma estrutura de fences funcionais, chamável e combinável
É parecido com MCP, e basta aprender os padrões, sem necessidade de treinamento específico
Existe até um funtor que conecta um método de ensino de piano do século XVIII com engenharia de contexto
Achei interessante a parte em que Karpathy fala que os LLMs deveriam se comunicar em formatos preferidos pelo usuário, como imagens, slides e quadros brancos
Mas, se um LLM criar uma UX nova para cada usuário toda vez, isso pode virar um inferno de interfaces imprevisíveis
Situações do tipo “o que Command-W faz neste app?” vão acontecer
No caso do Codex, ele cuida disso com mais atenção do que um humano
O próprio LLM é a melhor UI
Como entendem vários idiomas e conceitos abstratos, não há necessidade de gerar interfaces aleatórias
Como usuário não anglófono, eu misturo palavras em alemão e ele ainda entende bem
Muitos influenciadores de IA afirmam com certeza que “a interface de texto vai desaparecer”, mas na prática a interface textual ainda continua central
No fim, ele estava escondido no menu de três pontinhos com baixo contraste dentro do cartão do plano
Quando cliquei, abriu uma janela de conversa com chatbot de IA
Só depois de digitar o prompt “unsubscribe” é que o botão apareceu
Acho horrível trazer esse tipo de UX de atendimento telefônico automatizado para aplicativos
Como engenheiro de frontend, essa tendência me assusta
Fico curioso sobre o que o Andrej pensa dos modelos rápidos deste ano (Gemini 3 Flash, Grok 4 Fast)
Surgiram modelos tão rápidos, baratos e bons, mas a comunidade quase não parece dar atenção a eles
Para que a visão de interfaces visuais com LLM se concretize, esse tipo de modelo parece essencial
Imagino que tenham sido treinados com rastros de raciocínio (reasoning traces) gerados pelos modelos maiores
2025 também foi o ano em que fantasmas começaram a assombrar os dados de treinamento
Agora, metade do X (Twitter) é composta por LLMs respondendo a outros LLMs
Ou seja, estamos vendo uma situação em que as chamadas acontecem dentro do próprio dataset
Concordo que o o3 foi um ponto de virada
Algumas pessoas disseram que o o3 e o o4-mini já eram basicamente nível gpt-5
Mas, como os nomes eram pouco familiares, eles não chamaram atenção, enquanto o gpt-5 acabou decepcionando por mostrar só uma melhoria incremental
O o4-mini talvez fosse inadequado como modelo padrão por ter uma linguagem conversacional meio estranha, mas acho que teria sido melhor colocá-lo no plano de 20 dólares com um nome como “gpt-5 pro”
Olhando agora em retrospecto, acho que aquele foi o momento de um lançamento realmente grande