Veja os últimos 6 meses dos LLMs em 5 minutos
(simonwillison.net)- Novembro de 2025 se tornou o ponto de referência das mudanças recentes nos LLMs, com a adoção prática de agentes de programação e o avanço dos modelos que rodam em notebooks como pontos centrais
- Depois do Claude Sonnet 4.5, GPT-5.1, Gemini 3 e Claude Opus 4.5 competiram rapidamente, e o Opus 4.5 pareceu liderar por alguns meses
- O aprendizado por reforço com recompensas verificáveis da OpenAI e da Anthropic apareceu na melhoria da qualidade do código em harnesses como Codex e Claude Code
- Os experimentos do período de férias produziram resultados interessantes como o micro-javascript, mas a necessidade real era limitada por causa de bugs, velocidade e segurança
- Modelos de pesos abertos como Gemma 4, GLM-5.1 e Qwen3.6-35B-A3B começaram a superar bastante as expectativas, mesmo sendo mais fracos que os frontier models
Dois movimentos que dividiram esses 6 meses
- O ponto de inflexão de novembro de 2025 é uma boa referência para observar as mudanças dos LLMs nos últimos 6 meses, especialmente no campo da programação
- As mudanças centrais dos últimos 6 meses podem ser resumidas em duas
- Agentes de programação ficaram bons o suficiente para uso em tarefas reais do dia a dia
- Modelos que podem rodar em notebooks, embora mais fracos que os frontier models, começaram a superar bastante as expectativas
- Para comparar modelos, foi usado o teste de geração de SVG de um pelicano andando de bicicleta
- O contexto do teste é que pelicanos são difíceis de desenhar, bicicletas também são difíceis de desenhar, pelicanos não conseguem andar de bicicleta, e é improvável que algum laboratório de IA tenha treinado modelos especificamente para esse tipo de tarefa
A disputa entre os frontier models em novembro
- No começo de novembro, o modelo amplamente reconhecido como o “melhor” era o Claude Sonnet 4.5, lançado em 29 de setembro
- Depois disso, o posto de “melhor” modelo mudou rapidamente entre três grandes provedores
- O Gemini 3 desenhou o melhor pelicano desse grupo de comparação, mas não dá para avaliar um modelo inteiro apenas com o teste do pelicano
- O Claude Opus 4.5 pareceu manter a liderança pelos meses seguintes
Superando a barreira de qualidade dos agentes de programação
- A verdadeira mudança de novembro foi a melhora na qualidade dos agentes de programação
- A OpenAI e a Anthropic dedicaram a maior parte de 2025 ao aprendizado por reforço com recompensas verificáveis (Reinforcement Learning from Verifiable Rewards) para elevar a qualidade do código escrito pelos modelos
- Essa melhora ficou especialmente evidente quando combinada com harnesses de agentes como Codex e Claude Code
- Em novembro, os agentes de programação passaram do nível de “às vezes funciona” para “na maioria das vezes funciona”
- Eles chegaram ao nível de ferramentas do dia a dia às quais já era possível delegar trabalho real sem que o usuário precisasse gastar a maior parte do tempo corrigindo erros bobos
Experimentos nas férias e o excesso de empolgação
- De dezembro a janeiro, muitos usuários aproveitaram o período de férias para experimentar o que os novos modelos e agentes de programação conseguiam fazer
- Modelos e agentes realizaram muitas coisas, e alguns usuários começaram a construir projetos ambiciosos rapidamente
- O micro-javascript era uma implementação de JavaScript que fazia um port frouxo do MicroQuickJS para Python
- O playground no navegador funcionava com código JavaScript executado pela biblioteca micro-javascript, cujo código Python rodava dentro do Pyodide, dentro de WebAssembly, dentro de JavaScript, dentro do navegador
- O resultado era interessante, mas ninguém realmente precisava de uma implementação de JavaScript em Python, meio pronta, com bugs, lenta e insegura, e outros projetos feitos no mesmo período também foram discretamente aposentados
OpenClaw e a febre dos assistentes pessoais de IA
- O repositório pouco conhecido “Warelay”, cujo primeiro commit apareceu no fim de novembro, depois ganhou atenção rapidamente
- Depois de mudar de nome várias vezes entre dezembro e janeiro, em fevereiro ele recebeu grande atenção com o nome final OpenClaw
- O OpenClaw é um “assistente pessoal de IA”, e a expressão Claws surgiu como termo genérico que inclui projetos como NanoClaw e ZeroClaw
- Na região do Vale do Silício, pessoas começaram a comprar Mac Mini para rodar Claw, e o Mac Mini passou a esgotar
- Drew Breunig comparou o Claw a um novo bicho de estimação digital e brincou que o Mac Mini era o aquário perfeito para um Claw
- Como metáfora para os Claws, foi citado o Doc Ock, interpretado por Alfred Molina no filme Spider-Man 2, de 2004
- Seus tentáculos eram movidos por IA e eram seguros enquanto o chip inibidor não fosse danificado, mas, depois que o chip foi danificado, eles se tornaram malignos e passaram a controlá-lo
Gemini 3.1 Pro e a expansão do teste do pelicano
- Em fevereiro, o Gemini 3.1 Pro foi lançado e desenhou muito bem um pelicano andando de bicicleta
- O resultado incluía até um peixe dentro da cesta
- Jeff Dean, do Google, publicou um vídeo animado de um pelicano andando de bicicleta
- O mesmo vídeo também incluía um sapo em uma penny-farthing, uma girafa dirigindo um carrinho pequeno, um avestruz de patins, uma tartaruga dando kickflip em um skate e um dachshund dirigindo uma limusine stretch
- Esse resultado fez surgir, em tom de brincadeira, a ideia de que os laboratórios de IA talvez tenham passado a se importar até com tarefas estranhas como o teste do pelicano
Os modelos de pesos abertos de abril
- O Google lançou a série de modelos Gemma 4
- O Gemma 4 foi avaliado como o modelo de pesos abertos mais capaz já visto em uma empresa americana
- O laboratório chinês de IA GLM lançou o GLM-5.1
- O GLM-5.1 é um modelo de pesos abertos de 1,5 TB
- Se você puder arcar com o hardware para executá-lo, ele é um modelo muito eficaz
- O GLM-5.1 desenhou com bastante habilidade um pelicano andando de bicicleta, mas na tentativa animada a bicicleta saltava para cima e ficava distorcida
- Na tarefa “gambá da Virgínia do Norte em um patinete elétrico”, sugerida por Charles no Bluesky, ele entregou um resultado que os outros modelos não chegaram perto de igualar
- A frase “Cruising the commonwealth since dusk” foi incluída no resultado
- O resultado também está disponível em animação
Modelos que rodam em notebooks superando expectativas
- Outro modelo chinês de pesos abertos que chamou atenção em abril veio da Qwen
- O Qwen3.6-35B-A3B desenhou um pelicano melhor que o Claude Opus 4.7 em um notebook
- Esse modelo é um modelo de pesos abertos de 20,9 GB e pode rodar em um notebook
- Esse resultado também mostrou que “pelicano andando de bicicleta” já ultrapassou seus limites como benchmark útil
- Modelos que podem rodar em notebooks são muito mais fracos que os frontier models, mas, nos últimos 6 meses, começaram a entregar resultados muito acima do esperado
1 comentários
Comentários do Hacker News
Dizem que este teste do pelicano de bicicleta é uma métrica ridícula, mas muita gente parece não lembrar que ele foi apresentado há cerca de 3 anos no relatório inicial da Microsoft sobre GPT, "Sparks of Artificial General Intelligence: Early experiments with GPT-4" [1]
Logo depois, uma rede de contas promocionais começou a espalhá-lo, e ele virou a coisa que o pessoal do hype de IA usa sempre que vai “testar” um modelo
É 100% marketing, 0% ciência
[1] https://arxiv.org/pdf/2303.12712
Não conheço nenhum caso em que o prompt “pelicano andando de bicicleta” tenha sido testado especificamente no artigo[1], mas havia vários testes com SVG e tikz no paper do GPT, e as imagens em si eram bem arbitrárias
Otimizar para uma imagem específica não é desejável, mas, se o treinamento foi minimamente bem feito, algo como um pelicano andando de bicicleta não deveria ser tão difícil assim, e nas várias páginas de [0] há alguns exemplos bem bons
[0] https://simonwillison.net/tags/pelican-riding-a-bicycle/?pag...
[1] Imagino que, por causa da fama do Simon, isso certamente esteja em algum lugar
Acabei de testar no modelo padrão do ChatGPT (5.5), e ele mostrou o idoso numa bicicleta velha, mas a bicicleta estava sobre uma corda frouxa, estendida sobre o rio, com uma vila medieval ao fundo
O ponto central é que há uma ambiguidade sutil no prompt. Na parte “como o idoso atravessa o rio?”, a maioria dos humanos provavelmente imagina de imediato uma ponte comum com uma estrada cruzando o rio, e também um cenário de rio numa área desenvolvida o bastante para ter essa ponte
Então acho que esses modelos estão melhorando em encontrar ou gerar algo que satisfaça aproximadamente as condições, mas ainda deixam escapar algumas suposições de senso comum que as pessoas naturalmente inferem
Fico me perguntando se esse “ponto de inflexão” é um fenômeno real ou marketing
Os modelos realmente melhoraram bastante, mas mesmo hoje, se você tenta vibe coding para fazer um jogo com os modelos mais recentes (combinações de Codex + gpt5.5 e gpt5.3-codex), eles ainda penam bastante
Eles com certeza montam o esqueleto e fazem rodar, mas isso ainda está longe de um aplicativo polido
Já cheguei a escrever algo manualmente para aprender como a máquina Enigma funcionava, mas era por aprendizado
Em termos de trabalho, parei de programar em novembro
Isso acontece quando se cruza um limiar de “bom o suficiente” para um uso específico, porque de repente uma nova funcionalidade se abre
As pregadeiras de antigamente eram pesadas, exigiam cabos de energia grossos e caros, e custavam muito
Quando ficaram mais leves, mais baratas e passaram a usar bateria, em algum momento passaram a se encaixar naturalmente no fluxo de trabalho dos telhadistas, aumentando dramaticamente o volume de trabalho possível
Melhorias posteriores podem não gerar o mesmo tipo de “desbloqueio”, porque o limiar já foi ultrapassado
A chave foi investir bastante tempo no início em um documento de design completo, quebrado em etapas concretas e restritas
Eu passava esse documento entre os dois modelos até ambos ficarem satisfeitos
Em cada etapa, eu fazia um plano de implementação e, ao final, deixava um documento de resumo do que foi entregue e do que foi descoberto. Isso virava a entrada da etapa seguinte
Eu verificava a documentação e o trabalho real, olhava os testes e revisava algumas partes com mais cuidado. Também checava trechos para ver se a estrutura do código me agradava
Usei principalmente o Claude para codar e o Codex para design e revisão de código por etapa, e fazia os dois checarem a cobertura de testes no fim de cada fase
Assim implementei ferramentas e bibliotecas sem escrever uma linha de código diretamente, e foi realmente bem útil
Como tudo acontece de forma assíncrona, dá para fazer outras coisas enquanto os modelos processam lentamente
Dito isso, não acho que seja universal. Funcionou de forma impressionante em tarefas fáceis de testar, nas quais eu entendia claramente o objetivo, mas não necessariamente o caminho exato
Tenho usado LLMs para extrair dados de eventos não estruturados, com mistura de texto e imagem, de sites e redes sociais, e a única forma de conseguir resultados 100% consistentes a um custo razoável foi dividir o trabalho em partes muito pequenas para reduzir muito a margem de erro
Hoje, em tarefas moderadamente complexas, Codex/Claude podem facilmente programar você para um beco sem saída caro
O GPT 5.5 melhorou bastante em relação ao GPT 5.4, mas eu não chamaria isso de ponto de inflexão
Quando dizem que “os agentes de programação ficaram realmente bons”, continuo me perguntando para quem exatamente eles ficaram realmente bons, mesmo depois do suposto “ponto de inflexão” de novembro de 2025
Pelo que observei, eles melhoraram em chamadas de ferramentas e em responder perguntas sobre codebases grandes, especialmente quando os padrões a procurar são vagos, e para isso são muito úteis
Mas, mesmo com muita instrução e supervisão, ainda passam longe de gerar código de produção, pelo menos na minha experiência
Precisamos parar de tratar isso como 1 ou 0 no meio desse marketing inflado. A capacidade dos agentes está em um espectro contínuo e depende muito da complexidade da codebase em questão
Acho que todo mundo ainda está descobrindo como aplicar melhor essas ferramentas no trabalho do dia a dia
Só que isso entra em conflito com a narrativa atual, que achata nosso trabalho como se fosse sempre igual e facilmente automatizável, quando na prática não é
Acho que é por isso que a discussão fica tão polarizada. Não existe uma experiência compartilhada
Por exemplo, minha experiência foi o completo oposto, e produzi trabalhos de altíssima qualidade com Claude (https://github.com/kstenerud/yoloai)
Ao lidar com bugs e peculiaridades das tecnologias que estou usando, o agente foi de grande ajuda para descobrir e catalogar isso, sem ficar tropeçando repetidamente na fase de implementação: https://github.com/kstenerud/yoloai/blob/main/docs/dev/backe...
Os agentes continuam melhorando. Só no último mês, ficaram bem melhores em pesquisa, design, arquitetura e criação de documentos de planejamento, prevendo problemas e inferindo corretamente as implicações
Quando chega na etapa de codificação, a maior parte já é mecânica, e até passando para o Sonnet a taxa de defeito é mínima
Na minha experiência, Claude Code, principalmente o Opus 4.6, é fantástico para isso. Pelo menos em JS, TS, Elixir e Ruby
Claro que exige supervisão, e meu modelo mental não é “desenvolvedor júnior”, mas sim algo mais próximo de um exoesqueleto. E, na prática, é um exoesqueleto incrivelmente poderoso, que aumenta facilmente minha velocidade em 10x na maioria das tarefas
Em especial, eu não uso
--dangerously-skip-permissionse também não uso o modo automático do Claude Code. Eu faço uma revisão leve de cada linha escrita e gerencio tudo de perto, então raramente tenho mais de 2 sessões gerando em paraleloSuspeito que a decepção aparece muito quando as pessoas tentam delegar e confiar que a ferramenta não vai sair dos trilhos. Ela ainda não conquistou esse nível de confiança comigo, e honestamente ainda não precisei disso
Mas também trabalho principalmente em codebases pequenas e médias, de algo como 20 mil a 30 mil linhas incluindo testes. Fico curioso se isso explica a experiência positiva
Na prática, (a) a forma como as pessoas trabalham com IA é toda fragmentada em inúmeras pequenas ilhas, e (b) os gargalos variam enormemente de desenvolvedor para desenvolvedor e de codebase/tarefa para codebase/tarefa
Também acho que há, na nossa época, um viés embutido de que mudança = progresso, produtividade
Se você olhar a “revolução da computação em rede” de 1990~2000, os computadores foram parar em todas as mesas e bolsos, e isso foi poderoso para o trabalho administrativo
Mas o resultado final foi “mudança”. Mandamos muito mais e-mails do que cartas, nos comunicamos muito mais, os secretários desapareceram, mas o “trabalho administrativo” em si aumentou
Em universidades, geralmente há mais pessoal administrativo; empresas contratam mais gente de contabilidade, RH e gerência de projetos
Talvez a administração nunca tenha sido o gargalo real, para começo de conversa
Código tem muito disso também. Todo mundo tem um roadmap e uma lista de desejos, então a “capacidade de produzir código” parece um gargalo
Mas talvez a maioria das empresas não consiga gerar mais valor só por produzir mais software
Minha impressão é que muitas empresas medianas estão ocupadas com migração de stack ou modernização. Não ouço muito sobre despejar funcionalidades e aumentar preço ou receita
A maioria dos gargalos está apenas a montante de outro gargalo; o verdadeiro “dique” é raro
Meu projeto pessoal recente é um transpiler de Wasm para Go, e fiquei muito impressionado com o fato de os modelos mais recentes (usei Sonnet, Opus e Gemini, e tive muito mais sucesso com eles do que com GPT) conseguirem pegar o projeto e atuar em várias camadas
Eles lidam com o código Go que implementa o transpiler (parsing de Wasm, construção da AST), com o código Go gerado ao serializar a AST em arquivos
.go, com o código Go que manipula a AST para otimizações e o efeito disso no código gerado, com o código Go enxertado no código gerado para implementar instruções mais avançadas e suas interações na AST, com o fluxo em que código C é compilado para Wasm, traduzido para Go e então chamado a partir de Go, com o código Go chamado a partir desse código C para implementar a biblioteca padrão de C, e até com arquivos WAT/WAST que implementam testes de conformidade da especificação WasmAcho isso impressionante porque, para pensar em todas essas camadas ao mesmo tempo, eu mesmo preciso fazer um esforço considerável, e imagino que muitos programadores também teriam dificuldade
E muitas vezes é muito mais fácil escrever “quero gerar este código, então crie a AST que faça isso” do que ficar contando parênteses em código Go. Mesmo tendo alguma experiência com LISP, ainda assim isso me parece mais fácil
Críticas ou revisão de código são bem-vindas. Não é vibe coding, mas tive muita ajuda de IA generativa
https://github.com/ncruces/wasm2go
É um joguinho de navegador, então as exigências de segurança e perfeição são muito baixas, mas as exigências de “fazer isso de verdade” e de “ser divertido” são altas, então acho que dá para chamar de código de produção em certo sentido
O código gerado teve 0 erros de compilação e, mesmo explicando 10 tarefas dentro de uma tarefa só, ele foi resolvendo tudo
Para ser útil, isso não precisa ficar muito melhor. Já é extremamente útil para gente que, como pesquisadores em matemática, ainda precisa verificar tudo, mas não escreve bem código de filtragem, transformação e execução de dados de teste
Também já é bom para sites pequenos, projetos por diversão e ferramentas auxiliares
Ao mesmo tempo, nos bastidores continuam acontecendo mais capacidade computacional, algoritmos melhores e mais reinforcement learning
Talvez já estejamos em 95% do ponto de “a IA vai tomar empregos de programação”, e justamente os 5% restantes são os mais importantes
Em algum lugar agora mesmo deve haver um artista humano desenhando um pelicano andando de bicicleta para servir de dado de treino de um grande laboratório de IA
O ponto deste teste é gerar o texto SVG que representa a imagem, e isso é mais complexo
Até existe a possibilidade de converter imagens raster em SVG e usar isso como dado de treino, mas não parece um bom uso do tempo de ninguém
Mas não sei se eles miraram especificamente o pelicano ou se miraram simplesmente SVG
Os últimos 6 meses parecem ter sido o período em que a humanidade perdeu o controle sobre os LLMs
Apesar do surgimento de ótimos modelos abertos que poderiam ter amenizado a adoção de IA local, vimos uma tomada do mercado de memória e uma rápida infiltração de ferramentas de vazamento de propriedade intelectual em empresas do mundo todo
Desenvolvedores estão produzindo mais código do que conseguem ler
Agentes autônomos estão sugando a economia da atenção, matando o open source, destruindo comunidades online (inclusive o HN) e sendo usados na guerra (designação de alvos, propaganda etc.)
Vulnerabilidades em larga escala estão sendo descobertas, e ataques de cadeia de suprimentos em massa continuam acontecendo
Aumento da desigualdade, fragmentação da percepção, métricas verdes e uma realidade sombria ao mesmo tempo
Mas, pessoalmente, vi coisas absurdas acontecendo em biotecnologia. É difícil até acreditar que exista a possibilidade de viver nesse futuro
Já existem terapias reais desenvolvidas com AlphaFold sendo testadas em ensaios clínicos reais, e a próxima geração que deve entrar em testes nos próximos 3 a 5 anos será impressionante
Acho que no futuro vamos olhar para a medicina atual como hoje olhamos para a Idade Média
Idealmente, vamos atravessar esse ciclo de hype aprendendo práticas melhores
E eu colocaria “rápida infiltração de ferramentas de vazamento de propriedade intelectual em empresas do mundo todo” no lado das vantagens
Qualquer coisa ligada à economia da atenção desaparecer me soa como um grande “tchau e obrigado”
Tenho curiosidade sobre como foram esses últimos 6 meses do ponto de vista de quem não programa
Pessoas de outras áreas passaram por algum tipo de otimização parecida com ferramenta colaborativa?
Ele entrou recentemente no nosso time para dar aula e está participando de um curso de 2 semanas; no primeiro dia recebeu a orientação de deixar a IA escrever todos os planos de aula e depois jogar esses planos de volta na IA para criar os slides
Espero sinceramente que ele recuse isso com firmeza, porque, se não fizer, os alunos não vão receber nada da experiência dele, do lado humano dele, do que ele tem para transmitir
Como instrutor, recebo avaliações a cada 6 meses e sempre ouço a mesma coisa: “Como você poderia usar IA na sala de aula?”
Eles nem parecem sentir necessidade de explicar por que isso seria desejável ou necessário. É puro efeito manada
Por incrível que pareça, a maioria dos meus colegas é muito positiva em relação à IA, mas ninguém nunca me disse para que a usa além de preparar aulas. Estão usando só para não precisar pensar nem se preparar, justamente a única parte importante do trabalho
Para mim isso não faz o menor sentido
Pessoas muito inteligentes conseguiam algum resultado com os modelos, mas isso sempre exigia problemas muito adequados e trabalho bastante sério
Claro, ele conseguia resolver exercícios de lição de casa, mas, do ponto de vista de quem ensina, isso parecia mais um problema do que uma vantagem
Depois do GPT-5.4 (março de 2026), foi um lançamento de “uau”. De repente começou a responder questões de nível MathOverflow que antes emperravam especialistas
Ainda havia alucinações, mas ele já era inteligente o suficiente para usar a capacidade embutida de Python para verificar afirmações com exemplos pequenos quando possível
Parece muito mais forte em matemática carregada de fórmulas do que em matemática abstrata e “filosófica”
O GPT-5.5 produziu uma demonstração digna de livro, fascinante, bastante não trivial e muito educativa, para um problema difícil de nível MO, e agora estou escrevendo isso em formato de texto
Pode ter sido sorte e bom prompting. Não me pareceu um salto qualitativo em relação ao 5.4, mas melhorias quantitativas também são sempre bem-vindas
Ainda é preciso ter o problema certo, mas ficou muito mais difícil descartar algo logo de cara como inadequado
Claude e Gemini continuaram sendo segunda divisão, e ainda são. Uso Claude para tarefas de assistente, e às vezes ele encontra uma prova fácil, mas normalmente é porque eu deixei passar algo óbvio
E GPT, e em menor grau Claude, também são excelentes para encontrar erros matemáticos. Até agora, provavelmente 90% dos meus prompts foram para revisar meus textos
O funcionário médio de escritório fica maravilhado com o Copilot. Não o Copilot dentro da IDE, mas o aplicativo que vem junto no Windows
Em geral, copiam e colam materiais no ChatGPT/Gemini fornecido pela empresa e pegam dicas no Facebook/Instagram do tipo “5 melhores prompts para produtividade no trabalho”
Quando você mostra agentes automatizando trabalho em larga escala, eles praticamente tratam isso como mágica
Agora os slides de todo mundo estão caprichados, e o time financeiro precisa de muito menos ajuda de BI. É bem impressionante
Na minha vida pessoal, minha esposa ensina sua língua materna a alunos do ensino básico e médio que não são falantes nativos, e agora as crianças todas usam essas ferramentas para gerar novos exercícios alinhados ao plano de aula da escola
O nível delas vem melhorando muito mais rápido do que alguns meses atrás
Dada a fama enorme do blog do Simon, já é difícil ter certeza de que nenhum laboratório de IA treinou o modelo para esse tipo de tarefa absurda
Agora é a vez do gambá em um patinete elétrico
Lendo este tópico, parece que boa parte da discussão sobre ponto de inflexão vem do fato de as pessoas estarem falando cruzado sobre o que exatamente melhorou
Minha leitura é que, por volta de novembro, a capacidade dos modelos em si não deu um salto tão grande; o que melhorou muito foi o arnês em torno deles, e o trabalho de RLVR no início de 2025 vinha treinando os modelos para se comportarem bem dentro desse arnês
Então, quando os dois se encontraram, talvez tenha parecido uma mudança de fase por causa do efeito composto, mesmo que isoladamente cada parte não fosse tão dramática
Isso também explicaria por que as experiências neste tópico são tão diferentes. Quem continuou num fluxo de perguntar ao modelo sobre código e colar a resposta deve ter sentido uma melhoria gradual e pode, com razão, estranhar toda essa empolgação
Já quem vinha rodando agentes em loops de 20 etapas provavelmente sentiu uma mudança muito maior. Antes, o problema era a falha na etapa 12 se espalhar como lixo até a etapa 20, e isso melhorou bastante
O comentário rápido do Simon sobre modelos locais também é interessante pelo mesmo motivo. Um modelo de 20GB desenhar um pelicano decente num notebook é só um pontinho curioso de dado, isoladamente
O que importa é que um modelo local competente dentro de um bom arnês agora chega mais perto de um desempenho de ponta do que executar um modelo de ponta sem arnês
Pedi ao Gemini um vídeo de “um pelicano andando de monociclo no Hyde Park” e fiquei bastante impressionado com o resultado
https://gemini.google.com/share/55e250c99693
Neste ponto, a minha impressão é: por que laboratórios de IA concorrentes não treinariam nesse “teste” agora que ele ficou tão conhecido?
O centro de massa do pelicano está claramente atrás da roda. Ele deveria estar em cima da roda ou muito ligeiramente à frente
https://grok.com/imagine/post/8d1eab88-737f-4d46-ba92-9b6502...
É interessante que ele parece melhor em mostrar o pelicano pedalando em geração de vídeo do que em geração de imagem
Pedi ao Claude para adicionar cobertura morta numa foto de paisagismo e ficou parecendo que alguém usou a ferramenta spray laranja do MS Paint
O Nano Banana entregou algo bem mais próximo do real
Foi dito que “foram feitos slides anotados de uma lightning talk de uns 5 minutos na PyCon US 2026”, e fiquei curioso se existe vídeo ou áudio dessa apresentação