Qwen3.6-35B-A3B gera uma imagem de pelicano melhor que Claude Opus 4.7
(simonwillison.net)- Ao comparar Qwen3.6-35B-A3B e Claude Opus 4.7 na geração da imagem de um “pelicano andando de bicicleta”, o Qwen produziu uma ilustração mais bem acabada
- O modelo Qwen é a versão mais recente da Alibaba, executada localmente no MacBook Pro M5 com LM Studio, usando o modelo quantizado de 20,9GB distribuído pela Unsloth
- O Claude Opus 4.7 apresentou erros na representação do quadro da bicicleta e, mesmo com a opção
thinking_level: max, quase não houve melhora na qualidade - O “benchmark do pelicano” originalmente era um teste satírico de comparação entre modelos, mas este resultado mostra que um LLM local pode superar modelos comerciais
- Qwen3.6-35B-A3B é um caso que comprova a competitividade de modelos grandes executáveis em ambiente local
Experimento comparativo entre Qwen3.6-35B-A3B e Claude Opus 4.7
- Foi realizado um experimento comparativo com os dois modelos, Qwen3.6-35B-A3B e Claude Opus 4.7, para gerar a imagem de um “pelicano andando de bicicleta”
- O modelo Qwen é a versão mais recente divulgada pela Alibaba, usando o modelo quantizado (quantized) de 20,9GB fornecido pela Unsloth
- Foi executado localmente em um MacBook Pro M5 por meio do LM Studio e do plugin llm-lmstudio
- Para o Claude Opus 4.7, foi usado o modelo de nuvem mais recente da Anthropic
- Como resultado, o Qwen3.6-35B-A3B gerou uma imagem de pelicano mais bem acabada
- O Claude Opus 4.7 cometeu um erro ao representar incorretamente o quadro da bicicleta
- Foi feita uma nova tentativa com a opção
thinking_level: max, mas quase não houve melhora de qualidade
- Algumas pessoas levantaram a suspeita de que os modelos teriam sido treinados para esse “benchmark do pelicano”
- O autor nega isso, mas para verificar a confiabilidade do resultado realizou também um novo teste com um “flamingo andando de monociclo”
- O Qwen3.6-35B-A3B voltou a apresentar resultado melhor, e a observação “” no código SVG foi considerada impressionante
Significado e limitações do benchmark do pelicano
- O “benchmark do pelicano de bicicleta” começou originalmente como um teste em tom de piada para satirizar o absurdo da comparação entre modelos
- No entanto, na prática havia uma certa correlação entre a qualidade do desenho do pelicano e o desempenho geral do modelo
- Os primeiros resultados, em outubro de 2024, eram toscos, mas depois os modelos passaram gradualmente a gerar ilustrações em nível realmente utilizável
- Neste experimento, essa correlação se rompeu pela primeira vez
- Embora o modelo Qwen tenha produzido um resultado superior, a avaliação é que não dá para considerar que a versão quantizada de 21GB seja mais poderosa que o modelo comercial mais recente da Anthropic
- Ainda assim, se for preciso gerar um “SVG de um pelicano andando de bicicleta”, neste momento o Qwen3.6-35B-A3B executável localmente é a melhor escolha
- No geral, esta comparação é avaliada como um caso que mostra o nível de evolução dos LLMs locais e a redução da diferença para os grandes modelos comerciais
- Destaca-se especialmente o fato de demonstrar a viabilidade de executar modelos grandes no ambiente do LM Studio
1 comentários
Comentários do Hacker News
É difícil concordar com o teste de fallback. O Opus flamingo representa de forma funcional até os pedais, o selim, os raios da roda e o bico de uma bicicleta real. Em termos de realismo, o Qwen foge completamente disso. Acho meio estranho que alguém prefira mais o resultado do Qwen. Na verdade, parece mais que o Qwen teve overfitting nos dados de pelicano
Tomando desempenho em programação como critério, o Qwen 3.6 35b a3b resolveu 11 de 98 tarefas do Power Ranking. O Qwen 3.5 do mesmo porte resolveu 10, o Qwen 3.5 27b dense resolveu 26, e o Opus resolveu 95. Ou seja, o Qwen 3.6 traz apenas uma melhora muito pequena
Entendo o lado divertido do “teste do pelicano”, mas agora já não sei mais o que esse teste prova. Se a ideia é ver o quanto o modelo se adapta bem a situações fora da distribuição, faria mais sentido experimentar outras combinações de animais e atividades — por exemplo, uma baleia andando de skate
Hoje perdi tempo tentando ajustar um diagrama de slides com o Gemini e acabei desistindo. Ele é bom em fazer algo engraçado de uma vez, mas ajustes finos do tipo “muda só essa parte um pouquinho” são quase impossíveis. Senti muito claramente o abismo entre brinquedo e ferramenta
No HN, quando alguém fala “meu notebook”, parece sempre querer dizer um MacBook de alto desempenho. É mais poderoso que a maioria dos computadores
Se você perguntar diretamente ao Opus “você é bom em geração de imagem?”, ele responde “não”. Ele nunca foi divulgado originalmente como modelo de geração de imagem
A linguagem é naturalmente cheia de metáforas espaciais (spatial metaphor). Por exemplo, em vez de dizer que o dinheiro “aumenta”, dizemos que ele “sobe”. Essa estrutura metafórica pode também se refletir na estrutura do espaço de pesos do modelo. Então, quanto mais o modelo aprende estratégias complexas, mais fundo esses padrões podem se enraizar. No futuro, eu gostaria de fazer um projeto comparando a geometria das ativações de modelos antigos e novos
O desempenho do Opus e do Sonnet em tarefas não relacionadas a programação vem caindo gradualmente desde a versão 4.1
Não sei o que demos assim provam. LLMs só são fortes em tarefas nas quais foram treinados, ou em tarefas parecidas. Gerar SVG não é originalmente esse tipo de tarefa. Antes eles não conseguiam porque havia poucos exemplos nos dados de treino, mas depois passaram a fazer mais ou menos quando exemplos foram adicionados para divulgação. Ainda assim, continua sem ser algo prático. Esse tipo de melhora não se traduz em avanço em outras capacidades. Agora que o aumento do tamanho dos modelos parou, o foco passou a ser otimização para tarefas específicas. Se existisse um conjunto secreto de tarefas fora do treino, daria para usar isso para avaliar de verdade a capacidade de generalização, mas este não é esse tipo de teste
Eu sou uma iguana e preciso levar minha bicicleta ao lava-rápido. Estou pensando se vou a pé ou de ônibus