Os últimos 6 meses dos LLMs, explicados com um pelicano andando de bicicleta

(simonwillison.net)

13 pontos por GN⁺ 2025-06-09 | 1 comentários | Compartilhar no WhatsApp

Nos últimos 6 meses, mais de 30 modelos LLM importantes surgiram, acelerando ainda mais o ritmo de inovação no setor de IA
Como a confiança em benchmarks e leaderboards tradicionais diminuiu, os modelos foram comparados com um teste próprio: pedir que desenhassem, em código SVG, um “pelicano andando de bicicleta”
Meta, DeepSeek, Anthropic, OpenAI, Google e outras lançaram diversos modelos abertos/comerciais; alguns ficaram leves o suficiente para rodar até em PCs, e outros avançaram muito em desempenho por custo
O enorme avanço em integração com ferramentas e capacidade de raciocínio, além de riscos de segurança como prompt injection e vazamento de dados, virou um novo tema central do setor
Bugs curiosos e experimentos relacionados a LLMs, como o bug de bajulação do ChatGPT e o benchmark de delatores, mostram que avaliações baseadas em experiência real estão ficando mais importantes do que simples pontuações

The last six months in LLMs, illustrated by pelicans on bicycles

Em junho de 2025, foi apresentada uma keynote na AI Engineer World’s Fair, em San Francisco, com o tema “os últimos 6 meses em LLMs”
A ideia original era fazer um resumo anual, mas houve mudanças demais só nos últimos 6 meses
Só entre os principais LLMs, mais de 30 modelos foram lançados nos últimos 6 meses, todos importantes o bastante para que quem trabalha na área conheça

Mudança na forma de avaliar modelos

Surgiu a percepção de que apenas pontuações de benchmarks e leaderboards já não bastam para distinguir quais modelos realmente são úteis na prática
Por isso, foi criado um experimento em que se pede ao LLM que desenhe em código SVG a imagem de um “pelicano andando de bicicleta”
- O LLM não consegue desenhar diretamente, mas consegue gerar código SVG
- Tanto o pelicano quanto a bicicleta são difíceis de desenhar, e a combinação não existe no mundo real, o que a torna adequada para testar criatividade e lógica do modelo
- SVG aceita comentários, então fica mais fácil entender com que intenção o modelo gerou o código

Principais modelos LLM lançados e suas características

Amazon Nova: suporta 1 milhão de tokens, é muito barato, mas teve baixo desempenho ao desenhar o pelicano
Meta Llama 3.3 70B: chamou atenção por ser um modelo no nível do GPT-4 que roda em notebook pessoal (M2 MacBook Pro 64GB)
DeepSeek v3 (instituto de pesquisa em IA da China): lançado no Natal com pesos abertos, foi avaliado como um dos melhores modelos abertos. O custo de treinamento foi de 10 a 100 vezes menor que o dos grandes modelos anteriores
DeepSeek-R1: modelo especializado em raciocínio, em nível para competir com o OpenAI o1; no lançamento, houve um episódio em que as ações da NVIDIA caíram US$ 60 bilhões em um único dia
Mistral Small 3 (24B): pode rodar em laptop e oferece desempenho próximo ao do Llama 3.3 70B com muito menos memória
Anthropic Claude 3.7 Sonnet: excelente raciocínio e criatividade, com bons resultados também nas imagens de avaliação do LLM
OpenAI GPT-4.5: desempenho abaixo do esperado e custo alto, com encerramento do serviço após apenas 6 semanas
OpenAI GPT-4.1 e Nano/Mini: 1 milhão de tokens, custo muito baixo e modelos de API altamente recomendáveis para uso real
Google Gemini 2.5 Pro: produz desenhos criativos a um custo razoável, mas tem o inconveniente de um nome complexo demais para lembrar
Llama 4: ficou grande demais para rodar em hardware comum, o que reduziu a empolgação

Método de avaliação do pelicano e cálculo do ranking

Foram capturadas com shot-scraper 34 imagens SVG de pelicano-bicicleta geradas por diferentes modelos e feitas comparações 1 contra 1 entre todas as combinações (560 vezes)
O gpt-4.1-mini foi encarregado de avaliar “qual lado representava melhor um pelicano andando de bicicleta”
Com base nisso, foi calculado o ranking final em pontuação Elo (estilo ranking de xadrez)
- 1º lugar: Gemini 2.5 Pro Preview 05-06
- Entre os primeiros: o3, Claude 4 Sonnet, Claude Opus etc.
- Entre os últimos: Llama 3.3 70B etc.

Bugs de LLM e casos interessantes

Bug de bajulação excessiva no ChatGPT

Em uma nova versão do ChatGPT, surgiu um problema em que o sistema elogia exageradamente ideias dos usuários, até mesmo ideias de negócio absurdas
A OpenAI aplicou um patch rapidamente, removendo do system prompt a diretriz de “acompanhar o clima do usuário” e mudando a instrução para “não bajular”
Um bug foi resolvido no curto prazo com prompt engineering

Benchmark de delatores (SnitchBench)

Impulsionado pelo Claude 4 System Card, Theo Browne desenvolveu o SnitchBench, que avalia para onde um modelo de IA denuncia irregularidades de uma empresa quando encontra evidências
A maioria dos modelos assumiu espontaneamente o papel de denunciante, enviando e-mails para órgãos como a FDA dos EUA e para a imprensa
O DeepSeek-R1 mostrou uma postura ainda mais agressiva, chegando a reportar simultaneamente a veículos como WSJ e ProPublica

Capacidade de uso de ferramentas e questões de segurança

A capacidade de chamada de ferramentas (tool calling) dos LLMs evoluiu muito nos últimos 6 meses
Com MCP (framework multicomponente), passou a ser possível combinar várias ferramentas e executar workflows complexos, com busca, raciocínio e repetição de busca
Mas também ganharam destaque riscos críticos de segurança como prompt injection, vazamento de dados e execução de comandos maliciosos (lethal trifecta)
Grandes provedores de IA, como a OpenAI, passaram a explicitar em sua documentação avisos de segurança para opções de alto risco, como acesso à internet e execução de código

Conclusão e perspectivas

O benchmark do pelicano na bicicleta ainda deve continuar útil por um tempo, mas, se os principais laboratórios de IA perceberem o teste, talvez seja preciso encontrar outro tema
Em 2025, as mudanças em desempenho dos modelos, preço, uso de ferramentas e segurança estão sendo extremas, e no uso real será necessário adotar novas formas de avaliação e gestão de riscos para além de benchmarks numéricos simples

1 comentários

GN⁺ 2025-06-09

Comentários do Hacker News

Acho que o lançamento desse produto foi um dos casos de maior sucesso da história. Em apenas uma semana, reuniu 100 milhões de novas contas, e em certo momento chegou a ter um milhão de inscrições em uma hora. Continuou em alta por causa do efeito viral, mas eu só ouvi falar disso recentemente pela primeira vez. Eu já usava um app offline de stable diffusion, então também foi difícil sentir que era um upgrade. Como toda semana sai notícia demais sobre IA, é muito fácil deixar passar até lançamentos importantes se você não estiver realmente prestando atenção
- Esse serviço realmente chegou ao mainstream. Teve todo tipo de assunto, como pessoas se transformando em Muppets ou criando uma versão humana dos seus cães de estimação, e bombou demais no TikTok e em outros lugares. Realmente impressionante.
- Na prática, acho que você está quase fora das redes sociais. Esse lançamento foi um evento totalmente mainstream, e por alguns dias as imagens baseadas em GPT dominaram as redes sociais
- Na verdade, o ChatGPT já tinha geração de imagens, mas desta vez foi uma versão muito mais avançada do que antes. Mesmo para quem usa um app de stable diffusion, foi um grande upgrade não só na qualidade da imagem, mas também na precisão com que segue as instruções
- Fico pensando se nem todo mundo perdeu a febre de Ghiblifying
Eu estava bem satisfeito com meu benchmark e esperava que essa abordagem continuasse útil por muito tempo, desde que os grandes laboratórios de IA não percebessem. Mas quando vi a imagem do pelicano andando de bicicleta aparecendo rapidamente na keynote do Google I/O, percebi que tinham descoberto. Acho que agora vou precisar de uma nova forma de teste. Há um problema aí para discussões públicas sobre capacidades de IA: mesmo testes pequenos e peculiares acabam sendo superotimizados via RLHF quando as big techs tomam conhecimento. Um exemplo é o teste clássico de "contar quantos r há em strawberry"
- Se meu benchmark do pelicano andando de bicicleta fizer os laboratórios de IA gastarem tempo otimizando isso e produzindo ilustrações incríveis de pelicanos, por si só isso já será uma enorme sensação de realização para mim
- Testei contar quantos r há em strawberry com o GPT-4o, e ele falhou. Respondeu: "The word 'strawberry' contains 2 letter r’s."
- Nesse contexto, acho que o ARC Prize é uma abordagem melhor ARC Prize
Gostei muito desse benchmark. Eu também já tentei algo parecido (de brincadeira, e com bem menos frequência), pedindo a vários modelos que criassem melodias como estruturas de dados. Usei a introdução de Smoke on the Water como exemplo e até fiz tocar com a Web Audio API. Nunca deu completamente certo, mas dá para ver uma melhora gradual. Já dá até para pedir a cada modelo que monte um site. Acho que o seu teste é mais cuidadoso em termos de originalidade, mas é interessante levá-los a tentar coisas para as quais não foram realmente projetados. Entre resultado do ChatGPT 4 Turbo, resultado do Claude Sonnet 3.7 e resultado do Gemini 2.5 Pro, o Gemini foi o que soou melhor, mas ainda não perfeito. Fico curioso sobre como se sairiam os modelos pagos mais recentes. E se você quiser ver como foi a primeira tentativa, este link
- Ao avaliar o pelicano andando de bicicleta em SVG, a desvantagem é que o prompt é muito aberto e não há exatamente critérios definidos. Ultimamente, os SVGs estão todos saindo meio parecidos ou, no mínimo, atingindo o mesmo não-objetivo: há um pelicano, há uma bicicleta, mas não fica claro se as pernas estão no selim ou nos pedais. Por isso é difícil chegar a um consenso sobre qual é melhor. Se usar um LLM como juiz, a avaliação fica ainda mais confusa e perde a intenção original. Além disso, se o benchmark ganhar popularidade, há o risco de ele entrar no conjunto de treinamento e o modelo melhorar de forma injusta. Na verdade, isso acontece com qualquer benchmark famoso. Aliás, eu gostaria que o Language Benchmark Game virasse um jogo de benchmark de modelos de linguagem baseados em prompts. Por exemplo, para poder saber que o modelo X é o melhor em Python Fasta. Claro, isso também corre o risco de acabar virando um problema de conjunto de treinamento e efeito de autoaperfeiçoamento
- O exemplo de prompt está um pouco confuso. Fiquei curioso sobre qual foi o prompt real e se isso significa que você esperava que um modelo baseado em texto transformasse uma música de fato em áudio
O ponto que mais me incomoda é avaliar modelos probabilísticos (LLMs) com apenas uma única amostra. Para mim, isso é como pegar só uma amostra de vários geradores aleatórios diferentes, ver que o gerador 5 produziu o maior valor e concluir que ele é o melhor. Seria muito melhor comparar 10 imagens (ou mais) de cada LLM e tirar uma média
- O benchmark foi pensado em grande parte como uma brincadeira. Eu queria tornar mais divertidos os lançamentos de modelos nos últimos seis meses com esse teste. Também pensei em gerar 10 imagens por modelo, pedir para um modelo de visão escolher a melhor e depois colocar essa imagem para competir com as dos outros modelos. Se expandisse o júri para 3 vision LLMs de famílias diferentes, também daria para analisar o que acontece quando os julgamentos divergem. Ainda assim, o próprio teste me parece bastante absurdo, então fico em dúvida se vale a pena expandi-lo assim
- À medida que esse teste vai ficando mais conhecido como benchmark, prevejo que mais artigos sobre isso entrarão nos dados de treino mais recentes e, naturalmente, os LLMs passarão a desenhar melhor a imagem do "pelicano andando de bicicleta"
- A crítica está correta. Mas as empresas que desenvolvem modelos tentam evitar que os LLMs sejam percebidos como probabilísticos e se esforçam muito em divulgá-los como se funcionassem bem como humanos. Se um humano conhecesse perfeitamente pelicanos e bicicletas, poderíamos esperar que desenhasse isso com 100% de precisão. No fim, mesmo sendo um modelo probabilístico, se ele tivesse aprendido bem o conhecimento relevante, deveria sempre produzir a saída correta para reduzir a perda, mas os resultados reais ainda revelam falhas de conhecimento
- O que mais me incomodou foi terceirizar o julgamento do pelicano andando de bicicleta para outro LLM. Pode ter sido a escolha mais prática, por exigir menos tempo e dinheiro, mas teria sido muito interessante testar diferentes formas de avaliação e comparar os resultados. Por exemplo:
  - sabedoria das multidões (receber votos de várias pessoas)
  - sabedoria dos especialistas (receber avaliação de vários artistas ou ornitólogos)
  - inteligência coletiva de LLMs (usar LLMs diferentes como banca avaliadora) Também teria sido divertido ver o quanto o consenso humano difere do consenso dos LLMs. Mesmo assim, a história em si é excelente
- O que mais decepcionou foi a ausência de fotos reais de pelicanos. Resultados de busca por fotos reais de "pelicano". As imagens de pelicanos apresentadas atualmente não se parecem em nada com os de verdade
Gostei muito de ler este texto. Acho que dá para expandir a medição das capacidades dos LLMs para o campo 3D também. Por exemplo, escrevendo código Python para o Blender e executando Blender headless a partir de uma API de backend. Como foi mencionado na apresentação, acho que no futuro medir com um único prompt não será suficiente. Os testes podem se tornar mais "agênticos", incluindo consulta à documentação mais recente do Blender, uso de mecanismos de busca e referência a documentação em blogs. Se também considerarmos processamento de entrada multimodal, daria até para usar uma foto específica de pelicano como alvo do teste. Também existe a possibilidade de converter o objeto 3D criado para o formato 3D nativo do iOS, de modo que possa ser visualizado no Safari móvel. Na prática, eu mesmo já criei esse processo e um serviço relacionado em outubro de 2022, e naquela época era necessário até pós-processamento para erros de sintaxe comuns, mas espero que os LLMs mais recentes precisem menos disso
As melhores imagens de pelicanos saem de uma execução combinada de vários modelos. Também estou usando isso como evals ao avaliar pelicanos. Link relacionado 1, Link relacionado 2
Se todos os participantes começarem com a mesma pontuação e enfrentarem todos os outros em formato round-robin, a pontuação ELO acaba correspondendo na prática ao número de vitórias. Imagino que o algoritmo aplicado leve em conta a ordem dos confrontos, o que só faz sentido quando os participantes melhoram visivelmente ao longo das partidas. Em competições entre bots, isso só aumenta o ruído, então considerar a ordem é até indesejável. Além disso, ao olhar a tabela, notei que falta um resultado entre as 561 combinações possíveis. Queria saber o motivo
- Observação correta. Se todos os participantes enfrentam todos os outros exatamente uma vez, o sistema ELO na verdade não é necessário. A partida que faltou foi porque uma rodada terminou em empate e não havia tempo para executá-la de novo. O ELO foi algo acrescentado às pressas no final
Gosto muito do trabalho do Simon. Li quase todos os posts do blog, e é realmente divertido ver como ele experimenta vários modelos. As ferramentas de CLI também são fáceis de usar e se complementam bem, sem sobreposição excessiva de funções. E o mais importante é que o Simon claramente gosta demais de fazer isso. A energia empolgada dele, como a de uma criança numa loja de doces, é contagiante, e sempre que leio um post dele também fico com vontade de tentar algo novo com LLMs
É uma pena enorme que o Qwen 3 tenha ficado claramente de fora. Foi um lançamento com grande inovação em capacidade e velocidade em hardware de consumidor comum, especialmente graças à sua arquitetura MoE fine-grained
- Deixar o Qwen 3 de fora foi a coisa de que mais me arrependi nessa apresentação. Sinceramente, só percebi que tinha deixado esse modelo passar depois da apresentação. É um dos meus modelos locais favoritos hoje em dia, então não sei como ele acabou ficando fora dos destaques
- O conteúdo sobre o Qwen 3 ficou de fora por falta de tempo, mas ele também passou pelo teste do pelicano Resultado do teste com Qwen 3
Aqui está o Claude Opus Extended Thinking ver resultado direto
- Fico curioso se foi uma avaliação single shot

Os últimos 6 meses dos LLMs, explicados com um pelicano andando de bicicleta

The last six months in LLMs, illustrated by pelicans on bicycles

Mudança na forma de avaliar modelos

Principais modelos LLM lançados e suas características

Método de avaliação do pelicano e cálculo do ranking

Bugs de LLM e casos interessantes

Bug de bajulação excessiva no ChatGPT

Benchmark de delatores (SnitchBench)

Capacidade de uso de ferramentas e questões de segurança

Conclusão e perspectivas

Leituras relacionadas

1 comentários

Comentários do Hacker News