- Nos últimos 6 meses, mais de 30 modelos LLM importantes surgiram, acelerando ainda mais o ritmo de inovação no setor de IA
- Como a confiança em benchmarks e leaderboards tradicionais diminuiu, os modelos foram comparados com um teste próprio: pedir que desenhassem, em código SVG, um “pelicano andando de bicicleta”
- Meta, DeepSeek, Anthropic, OpenAI, Google e outras lançaram diversos modelos abertos/comerciais; alguns ficaram leves o suficiente para rodar até em PCs, e outros avançaram muito em desempenho por custo
- O enorme avanço em integração com ferramentas e capacidade de raciocínio, além de riscos de segurança como prompt injection e vazamento de dados, virou um novo tema central do setor
- Bugs curiosos e experimentos relacionados a LLMs, como o bug de bajulação do ChatGPT e o benchmark de delatores, mostram que avaliações baseadas em experiência real estão ficando mais importantes do que simples pontuações
The last six months in LLMs, illustrated by pelicans on bicycles
- Em junho de 2025, foi apresentada uma keynote na AI Engineer World’s Fair, em San Francisco, com o tema “os últimos 6 meses em LLMs”
- A ideia original era fazer um resumo anual, mas houve mudanças demais só nos últimos 6 meses
- Só entre os principais LLMs, mais de 30 modelos foram lançados nos últimos 6 meses, todos importantes o bastante para que quem trabalha na área conheça
Mudança na forma de avaliar modelos
- Surgiu a percepção de que apenas pontuações de benchmarks e leaderboards já não bastam para distinguir quais modelos realmente são úteis na prática
- Por isso, foi criado um experimento em que se pede ao LLM que desenhe em código SVG a imagem de um “pelicano andando de bicicleta”
- O LLM não consegue desenhar diretamente, mas consegue gerar código SVG
- Tanto o pelicano quanto a bicicleta são difíceis de desenhar, e a combinação não existe no mundo real, o que a torna adequada para testar criatividade e lógica do modelo
- SVG aceita comentários, então fica mais fácil entender com que intenção o modelo gerou o código
Principais modelos LLM lançados e suas características
- Amazon Nova: suporta 1 milhão de tokens, é muito barato, mas teve baixo desempenho ao desenhar o pelicano
- Meta Llama 3.3 70B: chamou atenção por ser um modelo no nível do GPT-4 que roda em notebook pessoal (M2 MacBook Pro 64GB)
- DeepSeek v3 (instituto de pesquisa em IA da China): lançado no Natal com pesos abertos, foi avaliado como um dos melhores modelos abertos. O custo de treinamento foi de 10 a 100 vezes menor que o dos grandes modelos anteriores
- DeepSeek-R1: modelo especializado em raciocínio, em nível para competir com o OpenAI o1; no lançamento, houve um episódio em que as ações da NVIDIA caíram US$ 60 bilhões em um único dia
- Mistral Small 3 (24B): pode rodar em laptop e oferece desempenho próximo ao do Llama 3.3 70B com muito menos memória
- Anthropic Claude 3.7 Sonnet: excelente raciocínio e criatividade, com bons resultados também nas imagens de avaliação do LLM
- OpenAI GPT-4.5: desempenho abaixo do esperado e custo alto, com encerramento do serviço após apenas 6 semanas
- OpenAI GPT-4.1 e Nano/Mini: 1 milhão de tokens, custo muito baixo e modelos de API altamente recomendáveis para uso real
- Google Gemini 2.5 Pro: produz desenhos criativos a um custo razoável, mas tem o inconveniente de um nome complexo demais para lembrar
- Llama 4: ficou grande demais para rodar em hardware comum, o que reduziu a empolgação
Método de avaliação do pelicano e cálculo do ranking
- Foram capturadas com shot-scraper 34 imagens SVG de pelicano-bicicleta geradas por diferentes modelos e feitas comparações 1 contra 1 entre todas as combinações (560 vezes)
- O gpt-4.1-mini foi encarregado de avaliar “qual lado representava melhor um pelicano andando de bicicleta”
- Com base nisso, foi calculado o ranking final em pontuação Elo (estilo ranking de xadrez)
- 1º lugar: Gemini 2.5 Pro Preview 05-06
- Entre os primeiros: o3, Claude 4 Sonnet, Claude Opus etc.
- Entre os últimos: Llama 3.3 70B etc.
Bugs de LLM e casos interessantes
Bug de bajulação excessiva no ChatGPT
- Em uma nova versão do ChatGPT, surgiu um problema em que o sistema elogia exageradamente ideias dos usuários, até mesmo ideias de negócio absurdas
- A OpenAI aplicou um patch rapidamente, removendo do system prompt a diretriz de “acompanhar o clima do usuário” e mudando a instrução para “não bajular”
- Um bug foi resolvido no curto prazo com prompt engineering
Benchmark de delatores (SnitchBench)
- Impulsionado pelo Claude 4 System Card, Theo Browne desenvolveu o SnitchBench, que avalia para onde um modelo de IA denuncia irregularidades de uma empresa quando encontra evidências
- A maioria dos modelos assumiu espontaneamente o papel de denunciante, enviando e-mails para órgãos como a FDA dos EUA e para a imprensa
- O DeepSeek-R1 mostrou uma postura ainda mais agressiva, chegando a reportar simultaneamente a veículos como WSJ e ProPublica
Capacidade de uso de ferramentas e questões de segurança
- A capacidade de chamada de ferramentas (tool calling) dos LLMs evoluiu muito nos últimos 6 meses
- Com MCP (framework multicomponente), passou a ser possível combinar várias ferramentas e executar workflows complexos, com busca, raciocínio e repetição de busca
- Mas também ganharam destaque riscos críticos de segurança como prompt injection, vazamento de dados e execução de comandos maliciosos (lethal trifecta)
- Grandes provedores de IA, como a OpenAI, passaram a explicitar em sua documentação avisos de segurança para opções de alto risco, como acesso à internet e execução de código
Conclusão e perspectivas
- O benchmark do pelicano na bicicleta ainda deve continuar útil por um tempo, mas, se os principais laboratórios de IA perceberem o teste, talvez seja preciso encontrar outro tema
- Em 2025, as mudanças em desempenho dos modelos, preço, uso de ferramentas e segurança estão sendo extremas, e no uso real será necessário adotar novas formas de avaliação e gestão de riscos para além de benchmarks numéricos simples
1 comentários
Comentários do Hacker News
Acho que o lançamento desse produto foi um dos casos de maior sucesso da história. Em apenas uma semana, reuniu 100 milhões de novas contas, e em certo momento chegou a ter um milhão de inscrições em uma hora. Continuou em alta por causa do efeito viral, mas eu só ouvi falar disso recentemente pela primeira vez. Eu já usava um app offline de stable diffusion, então também foi difícil sentir que era um upgrade. Como toda semana sai notícia demais sobre IA, é muito fácil deixar passar até lançamentos importantes se você não estiver realmente prestando atenção
Eu estava bem satisfeito com meu benchmark e esperava que essa abordagem continuasse útil por muito tempo, desde que os grandes laboratórios de IA não percebessem. Mas quando vi a imagem do pelicano andando de bicicleta aparecendo rapidamente na keynote do Google I/O, percebi que tinham descoberto. Acho que agora vou precisar de uma nova forma de teste. Há um problema aí para discussões públicas sobre capacidades de IA: mesmo testes pequenos e peculiares acabam sendo superotimizados via RLHF quando as big techs tomam conhecimento. Um exemplo é o teste clássico de "contar quantos r há em strawberry"
Gostei muito desse benchmark. Eu também já tentei algo parecido (de brincadeira, e com bem menos frequência), pedindo a vários modelos que criassem melodias como estruturas de dados. Usei a introdução de Smoke on the Water como exemplo e até fiz tocar com a Web Audio API. Nunca deu completamente certo, mas dá para ver uma melhora gradual. Já dá até para pedir a cada modelo que monte um site. Acho que o seu teste é mais cuidadoso em termos de originalidade, mas é interessante levá-los a tentar coisas para as quais não foram realmente projetados. Entre resultado do ChatGPT 4 Turbo, resultado do Claude Sonnet 3.7 e resultado do Gemini 2.5 Pro, o Gemini foi o que soou melhor, mas ainda não perfeito. Fico curioso sobre como se sairiam os modelos pagos mais recentes. E se você quiser ver como foi a primeira tentativa, este link
O ponto que mais me incomoda é avaliar modelos probabilísticos (LLMs) com apenas uma única amostra. Para mim, isso é como pegar só uma amostra de vários geradores aleatórios diferentes, ver que o gerador 5 produziu o maior valor e concluir que ele é o melhor. Seria muito melhor comparar 10 imagens (ou mais) de cada LLM e tirar uma média
Gostei muito de ler este texto. Acho que dá para expandir a medição das capacidades dos LLMs para o campo 3D também. Por exemplo, escrevendo código Python para o Blender e executando Blender headless a partir de uma API de backend. Como foi mencionado na apresentação, acho que no futuro medir com um único prompt não será suficiente. Os testes podem se tornar mais "agênticos", incluindo consulta à documentação mais recente do Blender, uso de mecanismos de busca e referência a documentação em blogs. Se também considerarmos processamento de entrada multimodal, daria até para usar uma foto específica de pelicano como alvo do teste. Também existe a possibilidade de converter o objeto 3D criado para o formato 3D nativo do iOS, de modo que possa ser visualizado no Safari móvel. Na prática, eu mesmo já criei esse processo e um serviço relacionado em outubro de 2022, e naquela época era necessário até pós-processamento para erros de sintaxe comuns, mas espero que os LLMs mais recentes precisem menos disso
As melhores imagens de pelicanos saem de uma execução combinada de vários modelos. Também estou usando isso como evals ao avaliar pelicanos. Link relacionado 1, Link relacionado 2
Se todos os participantes começarem com a mesma pontuação e enfrentarem todos os outros em formato round-robin, a pontuação ELO acaba correspondendo na prática ao número de vitórias. Imagino que o algoritmo aplicado leve em conta a ordem dos confrontos, o que só faz sentido quando os participantes melhoram visivelmente ao longo das partidas. Em competições entre bots, isso só aumenta o ruído, então considerar a ordem é até indesejável. Além disso, ao olhar a tabela, notei que falta um resultado entre as 561 combinações possíveis. Queria saber o motivo
Gosto muito do trabalho do Simon. Li quase todos os posts do blog, e é realmente divertido ver como ele experimenta vários modelos. As ferramentas de CLI também são fáceis de usar e se complementam bem, sem sobreposição excessiva de funções. E o mais importante é que o Simon claramente gosta demais de fazer isso. A energia empolgada dele, como a de uma criança numa loja de doces, é contagiante, e sempre que leio um post dele também fico com vontade de tentar algo novo com LLMs
É uma pena enorme que o Qwen 3 tenha ficado claramente de fora. Foi um lançamento com grande inovação em capacidade e velocidade em hardware de consumidor comum, especialmente graças à sua arquitetura MoE fine-grained
Aqui está o Claude Opus Extended Thinking ver resultado direto