Veja os últimos 6 meses dos LLMs em 5 minutos

(simonwillison.net)

9 pontos por GN⁺ 2026-05-20 | 1 comentários | Compartilhar no WhatsApp

Novembro de 2025 se tornou o ponto de referência das mudanças recentes nos LLMs, com a adoção prática de agentes de programação e o avanço dos modelos que rodam em notebooks como pontos centrais
Depois do Claude Sonnet 4.5, GPT-5.1, Gemini 3 e Claude Opus 4.5 competiram rapidamente, e o Opus 4.5 pareceu liderar por alguns meses
O aprendizado por reforço com recompensas verificáveis da OpenAI e da Anthropic apareceu na melhoria da qualidade do código em harnesses como Codex e Claude Code
Os experimentos do período de férias produziram resultados interessantes como o micro-javascript, mas a necessidade real era limitada por causa de bugs, velocidade e segurança
Modelos de pesos abertos como Gemma 4, GLM-5.1 e Qwen3.6-35B-A3B começaram a superar bastante as expectativas, mesmo sendo mais fracos que os frontier models

Dois movimentos que dividiram esses 6 meses

O ponto de inflexão de novembro de 2025 é uma boa referência para observar as mudanças dos LLMs nos últimos 6 meses, especialmente no campo da programação
As mudanças centrais dos últimos 6 meses podem ser resumidas em duas
- Agentes de programação ficaram bons o suficiente para uso em tarefas reais do dia a dia
- Modelos que podem rodar em notebooks, embora mais fracos que os frontier models, começaram a superar bastante as expectativas
Para comparar modelos, foi usado o teste de geração de SVG de um pelicano andando de bicicleta
- O contexto do teste é que pelicanos são difíceis de desenhar, bicicletas também são difíceis de desenhar, pelicanos não conseguem andar de bicicleta, e é improvável que algum laboratório de IA tenha treinado modelos especificamente para esse tipo de tarefa

A disputa entre os frontier models em novembro

No começo de novembro, o modelo amplamente reconhecido como o “melhor” era o Claude Sonnet 4.5, lançado em 29 de setembro
Depois disso, o posto de “melhor” modelo mudou rapidamente entre três grandes provedores
O Gemini 3 desenhou o melhor pelicano desse grupo de comparação, mas não dá para avaliar um modelo inteiro apenas com o teste do pelicano
O Claude Opus 4.5 pareceu manter a liderança pelos meses seguintes

Superando a barreira de qualidade dos agentes de programação

A verdadeira mudança de novembro foi a melhora na qualidade dos agentes de programação
A OpenAI e a Anthropic dedicaram a maior parte de 2025 ao aprendizado por reforço com recompensas verificáveis (Reinforcement Learning from Verifiable Rewards) para elevar a qualidade do código escrito pelos modelos
Essa melhora ficou especialmente evidente quando combinada com harnesses de agentes como Codex e Claude Code
Em novembro, os agentes de programação passaram do nível de “às vezes funciona” para “na maioria das vezes funciona”
Eles chegaram ao nível de ferramentas do dia a dia às quais já era possível delegar trabalho real sem que o usuário precisasse gastar a maior parte do tempo corrigindo erros bobos

Experimentos nas férias e o excesso de empolgação

De dezembro a janeiro, muitos usuários aproveitaram o período de férias para experimentar o que os novos modelos e agentes de programação conseguiam fazer
Modelos e agentes realizaram muitas coisas, e alguns usuários começaram a construir projetos ambiciosos rapidamente
O micro-javascript era uma implementação de JavaScript que fazia um port frouxo do MicroQuickJS para Python
O playground no navegador funcionava com código JavaScript executado pela biblioteca micro-javascript, cujo código Python rodava dentro do Pyodide, dentro de WebAssembly, dentro de JavaScript, dentro do navegador
O resultado era interessante, mas ninguém realmente precisava de uma implementação de JavaScript em Python, meio pronta, com bugs, lenta e insegura, e outros projetos feitos no mesmo período também foram discretamente aposentados

OpenClaw e a febre dos assistentes pessoais de IA

O repositório pouco conhecido “Warelay”, cujo primeiro commit apareceu no fim de novembro, depois ganhou atenção rapidamente
Depois de mudar de nome várias vezes entre dezembro e janeiro, em fevereiro ele recebeu grande atenção com o nome final OpenClaw
O OpenClaw é um “assistente pessoal de IA”, e a expressão Claws surgiu como termo genérico que inclui projetos como NanoClaw e ZeroClaw
Na região do Vale do Silício, pessoas começaram a comprar Mac Mini para rodar Claw, e o Mac Mini passou a esgotar
Drew Breunig comparou o Claw a um novo bicho de estimação digital e brincou que o Mac Mini era o aquário perfeito para um Claw
Como metáfora para os Claws, foi citado o Doc Ock, interpretado por Alfred Molina no filme Spider-Man 2, de 2004
- Seus tentáculos eram movidos por IA e eram seguros enquanto o chip inibidor não fosse danificado, mas, depois que o chip foi danificado, eles se tornaram malignos e passaram a controlá-lo

Gemini 3.1 Pro e a expansão do teste do pelicano

Em fevereiro, o Gemini 3.1 Pro foi lançado e desenhou muito bem um pelicano andando de bicicleta
O resultado incluía até um peixe dentro da cesta
Jeff Dean, do Google, publicou um vídeo animado de um pelicano andando de bicicleta
O mesmo vídeo também incluía um sapo em uma penny-farthing, uma girafa dirigindo um carrinho pequeno, um avestruz de patins, uma tartaruga dando kickflip em um skate e um dachshund dirigindo uma limusine stretch
Esse resultado fez surgir, em tom de brincadeira, a ideia de que os laboratórios de IA talvez tenham passado a se importar até com tarefas estranhas como o teste do pelicano

Os modelos de pesos abertos de abril

O Google lançou a série de modelos Gemma 4
O Gemma 4 foi avaliado como o modelo de pesos abertos mais capaz já visto em uma empresa americana
O laboratório chinês de IA GLM lançou o GLM-5.1
- O GLM-5.1 é um modelo de pesos abertos de 1,5 TB
- Se você puder arcar com o hardware para executá-lo, ele é um modelo muito eficaz
O GLM-5.1 desenhou com bastante habilidade um pelicano andando de bicicleta, mas na tentativa animada a bicicleta saltava para cima e ficava distorcida
Na tarefa “gambá da Virgínia do Norte em um patinete elétrico”, sugerida por Charles no Bluesky, ele entregou um resultado que os outros modelos não chegaram perto de igualar
- A frase “Cruising the commonwealth since dusk” foi incluída no resultado
- O resultado também está disponível em animação

Modelos que rodam em notebooks superando expectativas

Outro modelo chinês de pesos abertos que chamou atenção em abril veio da Qwen
O Qwen3.6-35B-A3B desenhou um pelicano melhor que o Claude Opus 4.7 em um notebook
Esse modelo é um modelo de pesos abertos de 20,9 GB e pode rodar em um notebook
Esse resultado também mostrou que “pelicano andando de bicicleta” já ultrapassou seus limites como benchmark útil
Modelos que podem rodar em notebooks são muito mais fracos que os frontier models, mas, nos últimos 6 meses, começaram a entregar resultados muito acima do esperado

1 comentários

GN⁺ 2026-05-20

Comentários do Hacker News

Dizem que este teste do pelicano de bicicleta é uma métrica ridícula, mas muita gente parece não lembrar que ele foi apresentado há cerca de 3 anos no relatório inicial da Microsoft sobre GPT, "Sparks of Artificial General Intelligence: Early experiments with GPT-4" [1]
Logo depois, uma rede de contas promocionais começou a espalhá-lo, e ele virou a coisa que o pessoal do hype de IA usa sempre que vai “testar” um modelo
É 100% marketing, 0% ciência
[1] https://arxiv.org/pdf/2303.12712
- Para quem tiver curiosidade, parece que a primeira vez que Simon usou isso publicamente foi em 25 de outubro de 2024[0]
  Não conheço nenhum caso em que o prompt “pelicano andando de bicicleta” tenha sido testado especificamente no artigo[1], mas havia vários testes com SVG e tikz no paper do GPT, e as imagens em si eram bem arbitrárias
  Otimizar para uma imagem específica não é desejável, mas, se o treinamento foi minimamente bem feito, algo como um pelicano andando de bicicleta não deveria ser tão difícil assim, e nas várias páginas de [0] há alguns exemplos bem bons
  [0] https://simonwillison.net/tags/pelican-riding-a-bicycle/?pag...
  [1] Imagino que, por causa da fama do Simon, isso certamente esteja em algum lugar
- Desde que a IA generativa surgiu, meu teste informal pessoal era “uma ilustração de um idoso andando de bicicleta sobre um rio”
  Acabei de testar no modelo padrão do ChatGPT (5.5), e ele mostrou o idoso numa bicicleta velha, mas a bicicleta estava sobre uma corda frouxa, estendida sobre o rio, com uma vila medieval ao fundo
  O ponto central é que há uma ambiguidade sutil no prompt. Na parte “como o idoso atravessa o rio?”, a maioria dos humanos provavelmente imagina de imediato uma ponte comum com uma estrada cruzando o rio, e também um cenário de rio numa área desenvolvida o bastante para ter essa ponte
  Então acho que esses modelos estão melhorando em encontrar ou gerar algo que satisfaça aproximadamente as condições, mas ainda deixam escapar algumas suposições de senso comum que as pessoas naturalmente inferem
Fico me perguntando se esse “ponto de inflexão” é um fenômeno real ou marketing
Os modelos realmente melhoraram bastante, mas mesmo hoje, se você tenta vibe coding para fazer um jogo com os modelos mais recentes (combinações de Codex + gpt5.5 e gpt5.3-codex), eles ainda penam bastante
Eles com certeza montam o esqueleto e fazem rodar, mas isso ainda está longe de um aplicativo polido
- Antes do Opus 4.5 eu precisava guiá-los muito e ainda codava bastante por conta própria, mas lembro com total clareza que, depois daquele dia, praticamente não escrevi mais código
  Já cheguei a escrever algo manualmente para aprender como a máquina Enigma funcionava, mas era por aprendizado
  Em termos de trabalho, parei de programar em novembro
- Paradoxalmente, acho que pode haver vários pontos de inflexão mesmo quando o ganho marginal da capacidade central começa a cair
  Isso acontece quando se cruza um limiar de “bom o suficiente” para um uso específico, porque de repente uma nova funcionalidade se abre
  As pregadeiras de antigamente eram pesadas, exigiam cabos de energia grossos e caros, e custavam muito
  Quando ficaram mais leves, mais baratas e passaram a usar bateria, em algum momento passaram a se encaixar naturalmente no fluxo de trabalho dos telhadistas, aumentando dramaticamente o volume de trabalho possível
  Melhorias posteriores podem não gerar o mesmo tipo de “desbloqueio”, porque o limiar já foi ultrapassado
- Recentemente usei Codex 5.5 junto com Claude Code Opus 4.7 para criar coisas bem complexas no “vibe”
  A chave foi investir bastante tempo no início em um documento de design completo, quebrado em etapas concretas e restritas
  Eu passava esse documento entre os dois modelos até ambos ficarem satisfeitos
  Em cada etapa, eu fazia um plano de implementação e, ao final, deixava um documento de resumo do que foi entregue e do que foi descoberto. Isso virava a entrada da etapa seguinte
  Eu verificava a documentação e o trabalho real, olhava os testes e revisava algumas partes com mais cuidado. Também checava trechos para ver se a estrutura do código me agradava
  Usei principalmente o Claude para codar e o Codex para design e revisão de código por etapa, e fazia os dois checarem a cobertura de testes no fim de cada fase
  Assim implementei ferramentas e bibliotecas sem escrever uma linha de código diretamente, e foi realmente bem útil
  Como tudo acontece de forma assíncrona, dá para fazer outras coisas enquanto os modelos processam lentamente
  Dito isso, não acho que seja universal. Funcionou de forma impressionante em tarefas fáceis de testar, nas quais eu entendia claramente o objetivo, mas não necessariamente o caminho exato
- Eles te colocam além da linha de partida, mas, quando você olha o código, vê código duplicado, responsabilidades misturadas, estrutura ruim, arquivos de 10 mil linhas que devoram tokens, uma bagunça geral
  Tenho usado LLMs para extrair dados de eventos não estruturados, com mistura de texto e imagem, de sites e redes sociais, e a única forma de conseguir resultados 100% consistentes a um custo razoável foi dividir o trabalho em partes muito pequenas para reduzir muito a margem de erro
  Hoje, em tarefas moderadamente complexas, Codex/Claude podem facilmente programar você para um beco sem saída caro
- O Opus 4.5 de novembro de 2025 foi, de verdade e sem ironia, um ponto de inflexão e, na minha opinião, o único motivo da onda atual
  O GPT 5.5 melhorou bastante em relação ao GPT 5.4, mas eu não chamaria isso de ponto de inflexão
Quando dizem que “os agentes de programação ficaram realmente bons”, continuo me perguntando para quem exatamente eles ficaram realmente bons, mesmo depois do suposto “ponto de inflexão” de novembro de 2025
Pelo que observei, eles melhoraram em chamadas de ferramentas e em responder perguntas sobre codebases grandes, especialmente quando os padrões a procurar são vagos, e para isso são muito úteis
Mas, mesmo com muita instrução e supervisão, ainda passam longe de gerar código de produção, pelo menos na minha experiência
Precisamos parar de tratar isso como 1 ou 0 no meio desse marketing inflado. A capacidade dos agentes está em um espectro contínuo e depende muito da complexidade da codebase em questão
Acho que todo mundo ainda está descobrindo como aplicar melhor essas ferramentas no trabalho do dia a dia
Só que isso entra em conflito com a narrativa atual, que achata nosso trabalho como se fosse sempre igual e facilmente automatizável, quando na prática não é
Acho que é por isso que a discussão fica tão polarizada. Não existe uma experiência compartilhada
- A polarização vem do fato de que pessoas diferentes encontram experiências de programação e qualidade de saída muito diferentes ao usar essas ferramentas
  Por exemplo, minha experiência foi o completo oposto, e produzi trabalhos de altíssima qualidade com Claude (https://github.com/kstenerud/yoloai)
  Ao lidar com bugs e peculiaridades das tecnologias que estou usando, o agente foi de grande ajuda para descobrir e catalogar isso, sem ficar tropeçando repetidamente na fase de implementação: https://github.com/kstenerud/yoloai/blob/main/docs/dev/backe...
  Os agentes continuam melhorando. Só no último mês, ficaram bem melhores em pesquisa, design, arquitetura e criação de documentos de planejamento, prevendo problemas e inferindo corretamente as implicações
  Quando chega na etapa de codificação, a maior parte já é mecânica, e até passando para o Sonnet a taxa de defeito é mínima
- Me surpreende ouvir que você sente que os modelos mais recentes ainda não são bons o bastante para gerar código de produção mesmo com instrução e cuidado
  Na minha experiência, Claude Code, principalmente o Opus 4.6, é fantástico para isso. Pelo menos em JS, TS, Elixir e Ruby
  Claro que exige supervisão, e meu modelo mental não é “desenvolvedor júnior”, mas sim algo mais próximo de um exoesqueleto. E, na prática, é um exoesqueleto incrivelmente poderoso, que aumenta facilmente minha velocidade em 10x na maioria das tarefas
  Em especial, eu não uso --dangerously-skip-permissions e também não uso o modo automático do Claude Code. Eu faço uma revisão leve de cada linha escrita e gerencio tudo de perto, então raramente tenho mais de 2 sessões gerando em paralelo
  Suspeito que a decepção aparece muito quando as pessoas tentam delegar e confiar que a ferramenta não vai sair dos trilhos. Ela ainda não conquistou esse nível de confiança comigo, e honestamente ainda não precisei disso
  Mas também trabalho principalmente em codebases pequenas e médias, de algo como 20 mil a 30 mil linhas incluindo testes. Fico curioso se isso explica a experiência positiva
- O quanto isso é bom em programação está simplesmente distribuído de forma desigual
  Na prática, (a) a forma como as pessoas trabalham com IA é toda fragmentada em inúmeras pequenas ilhas, e (b) os gargalos variam enormemente de desenvolvedor para desenvolvedor e de codebase/tarefa para codebase/tarefa
  Também acho que há, na nossa época, um viés embutido de que mudança = progresso, produtividade
  Se você olhar a “revolução da computação em rede” de 1990~2000, os computadores foram parar em todas as mesas e bolsos, e isso foi poderoso para o trabalho administrativo
  Mas o resultado final foi “mudança”. Mandamos muito mais e-mails do que cartas, nos comunicamos muito mais, os secretários desapareceram, mas o “trabalho administrativo” em si aumentou
  Em universidades, geralmente há mais pessoal administrativo; empresas contratam mais gente de contabilidade, RH e gerência de projetos
  Talvez a administração nunca tenha sido o gargalo real, para começo de conversa
  Código tem muito disso também. Todo mundo tem um roadmap e uma lista de desejos, então a “capacidade de produzir código” parece um gargalo
  Mas talvez a maioria das empresas não consiga gerar mais valor só por produzir mais software
  Minha impressão é que muitas empresas medianas estão ocupadas com migração de stack ou modernização. Não ouço muito sobre despejar funcionalidades e aumentar preço ou receita
  A maioria dos gargalos está apenas a montante de outro gargalo; o verdadeiro “dique” é raro
- Não sei se houve um ponto de inflexão, mas ao longo do último ano isso definitivamente se tornou útil para mais do que autocomplete
  Meu projeto pessoal recente é um transpiler de Wasm para Go, e fiquei muito impressionado com o fato de os modelos mais recentes (usei Sonnet, Opus e Gemini, e tive muito mais sucesso com eles do que com GPT) conseguirem pegar o projeto e atuar em várias camadas
  Eles lidam com o código Go que implementa o transpiler (parsing de Wasm, construção da AST), com o código Go gerado ao serializar a AST em arquivos .go, com o código Go que manipula a AST para otimizações e o efeito disso no código gerado, com o código Go enxertado no código gerado para implementar instruções mais avançadas e suas interações na AST, com o fluxo em que código C é compilado para Wasm, traduzido para Go e então chamado a partir de Go, com o código Go chamado a partir desse código C para implementar a biblioteca padrão de C, e até com arquivos WAT/WAST que implementam testes de conformidade da especificação Wasm
  Acho isso impressionante porque, para pensar em todas essas camadas ao mesmo tempo, eu mesmo preciso fazer um esforço considerável, e imagino que muitos programadores também teriam dificuldade
  E muitas vezes é muito mais fácil escrever “quero gerar este código, então crie a AST que faça isso” do que ficar contando parênteses em código Go. Mesmo tendo alguma experiência com LISP, ainda assim isso me parece mais fácil
  Críticas ou revisão de código são bem-vindas. Não é vibe coding, mas tive muita ajuda de IA generativa
  https://github.com/ncruces/wasm2go
- Ontem foi muito divertido poder brincar o dia inteiro sem estourar o limite, graças ao limite da assinatura comum de 20 dólares da Anthropic
  É um joguinho de navegador, então as exigências de segurança e perfeição são muito baixas, mas as exigências de “fazer isso de verdade” e de “ser divertido” são altas, então acho que dá para chamar de código de produção em certo sentido
  O código gerado teve 0 erros de compilação e, mesmo explicando 10 tarefas dentro de uma tarefa só, ele foi resolvendo tudo
  Para ser útil, isso não precisa ficar muito melhor. Já é extremamente útil para gente que, como pesquisadores em matemática, ainda precisa verificar tudo, mas não escreve bem código de filtragem, transformação e execução de dados de teste
  Também já é bom para sites pequenos, projetos por diversão e ferramentas auxiliares
  Ao mesmo tempo, nos bastidores continuam acontecendo mais capacidade computacional, algoritmos melhores e mais reinforcement learning
  Talvez já estejamos em 95% do ponto de “a IA vai tomar empregos de programação”, e justamente os 5% restantes são os mais importantes
Em algum lugar agora mesmo deve haver um artista humano desenhando um pelicano andando de bicicleta para servir de dado de treino de um grande laboratório de IA
- Todos os modelos modernos de geração de imagem conseguem criar facilmente um pelicano sobre uma bicicleta
  O ponto deste teste é gerar o texto SVG que representa a imagem, e isso é mais complexo
  Até existe a possibilidade de converter imagens raster em SVG e usar isso como dado de treino, mas não parece um bom uso do tempo de ninguém
- A qualidade do pelicano no Gemini deu um salto grande demais em uma única iteração, enquanto outros benchmarks permaneceram bem estáveis, então acho que isso pode estar certo
  Mas não sei se eles miraram especificamente o pelicano ou se miraram simplesmente SVG
Os últimos 6 meses parecem ter sido o período em que a humanidade perdeu o controle sobre os LLMs
Apesar do surgimento de ótimos modelos abertos que poderiam ter amenizado a adoção de IA local, vimos uma tomada do mercado de memória e uma rápida infiltração de ferramentas de vazamento de propriedade intelectual em empresas do mundo todo
Desenvolvedores estão produzindo mais código do que conseguem ler
Agentes autônomos estão sugando a economia da atenção, matando o open source, destruindo comunidades online (inclusive o HN) e sendo usados na guerra (designação de alvos, propaganda etc.)
Vulnerabilidades em larga escala estão sendo descobertas, e ataques de cadeia de suprimentos em massa continuam acontecendo
Aumento da desigualdade, fragmentação da percepção, métricas verdes e uma realidade sombria ao mesmo tempo
- Se você só lê notícias ruins, especialmente o tipo de notícia popular que vende melhor hoje em dia, dá mesmo para formar essa imagem
  Mas, pessoalmente, vi coisas absurdas acontecendo em biotecnologia. É difícil até acreditar que exista a possibilidade de viver nesse futuro
  Já existem terapias reais desenvolvidas com AlphaFold sendo testadas em ensaios clínicos reais, e a próxima geração que deve entrar em testes nos próximos 3 a 5 anos será impressionante
  Acho que no futuro vamos olhar para a medicina atual como hoje olhamos para a Idade Média
- Acho que o hype de IA apenas expôs mais claramente as rachaduras da engenharia de software que sempre existiram
  Idealmente, vamos atravessar esse ciclo de hype aprendendo práticas melhores
- O fato de vulnerabilidades em larga escala estarem sendo descobertas é uma coisa boa
- Metal Gear Solid 2 foi uma obra estranha e engraçada até 2025
- “Tomada do mercado de memória”? Espera, o que é isso?
  E eu colocaria “rápida infiltração de ferramentas de vazamento de propriedade intelectual em empresas do mundo todo” no lado das vantagens
  Qualquer coisa ligada à economia da atenção desaparecer me soa como um grande “tchau e obrigado”
Tenho curiosidade sobre como foram esses últimos 6 meses do ponto de vista de quem não programa
Pessoas de outras áreas passaram por algum tipo de otimização parecida com ferramenta colaborativa?
- Sou instrutor num programa de aprendizagem profissional, e meu novo chefe passou uns 20 anos no setor e é uma das pessoas mais respeitadas da empresa
  Ele entrou recentemente no nosso time para dar aula e está participando de um curso de 2 semanas; no primeiro dia recebeu a orientação de deixar a IA escrever todos os planos de aula e depois jogar esses planos de volta na IA para criar os slides
  Espero sinceramente que ele recuse isso com firmeza, porque, se não fizer, os alunos não vão receber nada da experiência dele, do lado humano dele, do que ele tem para transmitir
  Como instrutor, recebo avaliações a cada 6 meses e sempre ouço a mesma coisa: “Como você poderia usar IA na sala de aula?”
  Eles nem parecem sentir necessidade de explicar por que isso seria desejável ou necessário. É puro efeito manada
  Por incrível que pareça, a maioria dos meus colegas é muito positiva em relação à IA, mas ninguém nunca me disse para que a usa além de preparar aulas. Estão usando só para não precisar pensar nem se preparar, justamente a única parte importante do trabalho
  Para mim isso não faz o menor sentido
- Em matemática pura, antes do GPT-5.4 o uso era bastante limitado
  Pessoas muito inteligentes conseguiam algum resultado com os modelos, mas isso sempre exigia problemas muito adequados e trabalho bastante sério
  Claro, ele conseguia resolver exercícios de lição de casa, mas, do ponto de vista de quem ensina, isso parecia mais um problema do que uma vantagem
  Depois do GPT-5.4 (março de 2026), foi um lançamento de “uau”. De repente começou a responder questões de nível MathOverflow que antes emperravam especialistas
  Ainda havia alucinações, mas ele já era inteligente o suficiente para usar a capacidade embutida de Python para verificar afirmações com exemplos pequenos quando possível
  Parece muito mais forte em matemática carregada de fórmulas do que em matemática abstrata e “filosófica”
  O GPT-5.5 produziu uma demonstração digna de livro, fascinante, bastante não trivial e muito educativa, para um problema difícil de nível MO, e agora estou escrevendo isso em formato de texto
  Pode ter sido sorte e bom prompting. Não me pareceu um salto qualitativo em relação ao 5.4, mas melhorias quantitativas também são sempre bem-vindas
  Ainda é preciso ter o problema certo, mas ficou muito mais difícil descartar algo logo de cara como inadequado
  Claude e Gemini continuaram sendo segunda divisão, e ainda são. Uso Claude para tarefas de assistente, e às vezes ele encontra uma prova fácil, mas normalmente é porque eu deixei passar algo óbvio
  E GPT, e em menor grau Claude, também são excelentes para encontrar erros matemáticos. Até agora, provavelmente 90% dos meus prompts foram para revisar meus textos
- Trabalho numa empresa que implanta IA em corporações
  O funcionário médio de escritório fica maravilhado com o Copilot. Não o Copilot dentro da IDE, mas o aplicativo que vem junto no Windows
  Em geral, copiam e colam materiais no ChatGPT/Gemini fornecido pela empresa e pegam dicas no Facebook/Instagram do tipo “5 melhores prompts para produtividade no trabalho”
  Quando você mostra agentes automatizando trabalho em larga escala, eles praticamente tratam isso como mágica
- Entre as pessoas não técnicas ao meu redor, Claude in Office foi o ponto de virada
  Agora os slides de todo mundo estão caprichados, e o time financeiro precisa de muito menos ajuda de BI. É bem impressionante
- Nos negócios, usamos ferramentas colaborativas para revisar e-mails e sugerir formas de arquivamento, gerenciar arquivos e pastas e vasculhar diariamente a intranet em busca de conteúdo interessante e relevante
  Na minha vida pessoal, minha esposa ensina sua língua materna a alunos do ensino básico e médio que não são falantes nativos, e agora as crianças todas usam essas ferramentas para gerar novos exercícios alinhados ao plano de aula da escola
  O nível delas vem melhorando muito mais rápido do que alguns meses atrás
Dada a fama enorme do blog do Simon, já é difícil ter certeza de que nenhum laboratório de IA treinou o modelo para esse tipo de tarefa absurda
- O próprio texto reconhece que “os laboratórios de IA podem ter acabado prestando atenção nisso” e que “o pelicano de bicicleta já ultrapassou claramente seu prazo de validade como benchmark útil”
- Mais adiante no texto, Simon diz que, considerando uma postagem em que Jeff Dean mencionou a tarefa do pelicano de bicicleta e o quão bem os modelos atuais se saem nela, isso já não é mais um bom benchmark
  Agora é a vez do gambá em um patinete elétrico
- Essa parte provavelmente funcionou melhor na apresentação. Era uma preparação para a piada que viria depois
- Na prática, isso virou um benchmark. Alguns amigos estão treinando modelos especificamente para contar quantos R existem em “strawberry”
Lendo este tópico, parece que boa parte da discussão sobre ponto de inflexão vem do fato de as pessoas estarem falando cruzado sobre o que exatamente melhorou
Minha leitura é que, por volta de novembro, a capacidade dos modelos em si não deu um salto tão grande; o que melhorou muito foi o arnês em torno deles, e o trabalho de RLVR no início de 2025 vinha treinando os modelos para se comportarem bem dentro desse arnês
Então, quando os dois se encontraram, talvez tenha parecido uma mudança de fase por causa do efeito composto, mesmo que isoladamente cada parte não fosse tão dramática
Isso também explicaria por que as experiências neste tópico são tão diferentes. Quem continuou num fluxo de perguntar ao modelo sobre código e colar a resposta deve ter sentido uma melhoria gradual e pode, com razão, estranhar toda essa empolgação
Já quem vinha rodando agentes em loops de 20 etapas provavelmente sentiu uma mudança muito maior. Antes, o problema era a falha na etapa 12 se espalhar como lixo até a etapa 20, e isso melhorou bastante
O comentário rápido do Simon sobre modelos locais também é interessante pelo mesmo motivo. Um modelo de 20GB desenhar um pelicano decente num notebook é só um pontinho curioso de dado, isoladamente
O que importa é que um modelo local competente dentro de um bom arnês agora chega mais perto de um desempenho de ponta do que executar um modelo de ponta sem arnês
Pedi ao Gemini um vídeo de “um pelicano andando de monociclo no Hyde Park” e fiquei bastante impressionado com o resultado
https://gemini.google.com/share/55e250c99693
- Segundo a explicação do autor original, a razão para usar esse teste é que pelicanos são difíceis de desenhar, bicicletas são difíceis de desenhar, pelicanos não sabem andar de bicicleta e nenhum laboratório de IA teria motivo para treinar modelos para uma tarefa tão absurda
  Neste ponto, a minha impressão é: por que laboratórios de IA concorrentes não treinariam nesse “teste” agora que ele ficou tão conhecido?
- Graficamente é perfeito, mas semanticamente não faz sentido
  O centro de massa do pelicano está claramente atrás da roda. Ele deveria estar em cima da roda ou muito ligeiramente à frente
- O Grok também me impressionou
  https://grok.com/imagine/post/8d1eab88-737f-4d46-ba92-9b6502...
  É interessante que ele parece melhor em mostrar o pelicano pedalando em geração de vídeo do que em geração de imagem
- O Google/Gemini está com capacidades audiovisuais bem impressionantes
  Pedi ao Claude para adicionar cobertura morta numa foto de paisagismo e ficou parecendo que alguém usou a ferramenta spray laranja do MS Paint
  O Nano Banana entregou algo bem mais próximo do real
- Realmente impressionante, e um pouco preocupante para quem cria em cinema, animação e modelagem
Foi dito que “foram feitos slides anotados de uma lightning talk de uns 5 minutos na PyCon US 2026”, e fiquei curioso se existe vídeo ou áudio dessa apresentação

Veja os últimos 6 meses dos LLMs em 5 minutos

Dois movimentos que dividiram esses 6 meses

A disputa entre os frontier models em novembro

Superando a barreira de qualidade dos agentes de programação

Experimentos nas férias e o excesso de empolgação

OpenClaw e a febre dos assistentes pessoais de IA

Gemini 3.1 Pro e a expansão do teste do pelicano

Os modelos de pesos abertos de abril

Modelos que rodam em notebooks superando expectativas

Leituras relacionadas

1 comentários

Comentários do Hacker News