6 pontos por GN⁺ 12 일 전 | 1 comentários | Compartilhar no WhatsApp
  • Ao comparar Qwen3.6-35B-A3B e Claude Opus 4.7 na geração da imagem de um “pelicano andando de bicicleta”, o Qwen produziu uma ilustração mais bem acabada
  • O modelo Qwen é a versão mais recente da Alibaba, executada localmente no MacBook Pro M5 com LM Studio, usando o modelo quantizado de 20,9GB distribuído pela Unsloth
  • O Claude Opus 4.7 apresentou erros na representação do quadro da bicicleta e, mesmo com a opção thinking_level: max, quase não houve melhora na qualidade
  • O “benchmark do pelicano” originalmente era um teste satírico de comparação entre modelos, mas este resultado mostra que um LLM local pode superar modelos comerciais
  • Qwen3.6-35B-A3B é um caso que comprova a competitividade de modelos grandes executáveis em ambiente local

Experimento comparativo entre Qwen3.6-35B-A3B e Claude Opus 4.7

  • Foi realizado um experimento comparativo com os dois modelos, Qwen3.6-35B-A3B e Claude Opus 4.7, para gerar a imagem de um “pelicano andando de bicicleta”
    • O modelo Qwen é a versão mais recente divulgada pela Alibaba, usando o modelo quantizado (quantized) de 20,9GB fornecido pela Unsloth
    • Foi executado localmente em um MacBook Pro M5 por meio do LM Studio e do plugin llm-lmstudio
    • Para o Claude Opus 4.7, foi usado o modelo de nuvem mais recente da Anthropic
  • Como resultado, o Qwen3.6-35B-A3B gerou uma imagem de pelicano mais bem acabada
    • O Claude Opus 4.7 cometeu um erro ao representar incorretamente o quadro da bicicleta
    • Foi feita uma nova tentativa com a opção thinking_level: max, mas quase não houve melhora de qualidade
  • Algumas pessoas levantaram a suspeita de que os modelos teriam sido treinados para esse “benchmark do pelicano”
    • O autor nega isso, mas para verificar a confiabilidade do resultado realizou também um novo teste com um “flamingo andando de monociclo”
    • O Qwen3.6-35B-A3B voltou a apresentar resultado melhor, e a observação “” no código SVG foi considerada impressionante

Significado e limitações do benchmark do pelicano

  • O “benchmark do pelicano de bicicleta” começou originalmente como um teste em tom de piada para satirizar o absurdo da comparação entre modelos
    • No entanto, na prática havia uma certa correlação entre a qualidade do desenho do pelicano e o desempenho geral do modelo
    • Os primeiros resultados, em outubro de 2024, eram toscos, mas depois os modelos passaram gradualmente a gerar ilustrações em nível realmente utilizável
  • Neste experimento, essa correlação se rompeu pela primeira vez
    • Embora o modelo Qwen tenha produzido um resultado superior, a avaliação é que não dá para considerar que a versão quantizada de 21GB seja mais poderosa que o modelo comercial mais recente da Anthropic
    • Ainda assim, se for preciso gerar um “SVG de um pelicano andando de bicicleta”, neste momento o Qwen3.6-35B-A3B executável localmente é a melhor escolha
  • No geral, esta comparação é avaliada como um caso que mostra o nível de evolução dos LLMs locais e a redução da diferença para os grandes modelos comerciais
    • Destaca-se especialmente o fato de demonstrar a viabilidade de executar modelos grandes no ambiente do LM Studio

1 comentários

 
GN⁺ 12 일 전
Comentários do Hacker News
  • É difícil concordar com o teste de fallback. O Opus flamingo representa de forma funcional até os pedais, o selim, os raios da roda e o bico de uma bicicleta real. Em termos de realismo, o Qwen foge completamente disso. Acho meio estranho que alguém prefira mais o resultado do Qwen. Na verdade, parece mais que o Qwen teve overfitting nos dados de pelicano

    • O flamingo do Qwen é artisticamente muito mais interessante. É um flamingo caolho usando óculos escuros e gravata-borboleta fumando um cigarro. Já o Opus desenha um flamingo sem graça e meio esquisito. O céu e o chão no fundo também são mais interessantes no Qwen. Mas, em termos de plausibilidade física, o Opus chega muito mais perto
    • O Qwen pelo menos desenha um quadro de bicicleta completo. O quadro do Opus parece que quebraria no meio e nem dá a impressão de que seria possível esterçar
    • O Qwen adicionou detalhes ao fundo, mas o próprio pelicano parece mais uma cegonha de bico curvo e ainda está com as pernas cortadas. É impressionante para um modelo local, mas não é o vencedor
    • Este é um modelo 3B. Só o fato de o resultado ser tão próximo já é surpreendente. A discussão sobre valor artístico não é o ponto central
  • Tomando desempenho em programação como critério, o Qwen 3.6 35b a3b resolveu 11 de 98 tarefas do Power Ranking. O Qwen 3.5 do mesmo porte resolveu 10, o Qwen 3.5 27b dense resolveu 26, e o Opus resolveu 95. Ou seja, o Qwen 3.6 traz apenas uma melhora muito pequena

    • Esse benchmark tem o mesmo problema de sobreposição entre dados de treino e dados de benchmark que o Brokk Power Ranking
    • A velocidade com certeza melhorou. Em um M1 Max, ao descrever imagens, o Qwen 3.6 35b a3b faz 34 tokens por segundo, o Qwen 3.5 27b faz 10 tokens, e o Qwen 3.5 35b a3b não suporta entrada de imagem
    • Comparar um modelo pequeno para inferência local com um modelo frontier caro é injusto. O certo seria comparar com modelos de faixa de preço parecida, ou com modelos frontier pequenos como Haiku, Flash e GPT Nano
  • Entendo o lado divertido do “teste do pelicano”, mas agora já não sei mais o que esse teste prova. Se a ideia é ver o quanto o modelo se adapta bem a situações fora da distribuição, faria mais sentido experimentar outras combinações de animais e atividades — por exemplo, uma baleia andando de skate

    • Foi por isso que eu tentei um flamingo andando de monociclo. Por um momento cheguei a suspeitar que o provedor do modelo tivesse treinado especificamente para pelicanos, mas vendo o resultado com flamingo fiquei convencido de que não foi isso
    • Quanto mais popular o benchmark, maior a chance de ele receber atenção especial durante o treinamento do modelo. Eu gostaria de testar prompts como “um elefante dirigindo um carro” ou “um leão dormindo na cama”
    • Se você ler o texto, fica explícito que esse teste foi criado com uma intenção bem-humorada. Ele apenas acompanhou de forma solta a tendência do desempenho dos modelos, e este resultado mostra que essa tendência foi quebrada
    • Os modelos podem até reconhecer o teste, mas provavelmente não foram treinados com algo como “uma tartaruga dando kickflip em cima de um skate”. Como dá para ver também no tweet de Jeff Dean, o fracasso do Opus 4.7 com o pelicano é justamente evidência disso
    • Essa piada já passou da validade. Mas, em meio ao hype excessivo da indústria de IA, ainda tem gente que leva isso a sério. A cena se repete: saiu um bom desenho de pelicano, então isso é apresentado como prova de que o modelo é excelente
  • Hoje perdi tempo tentando ajustar um diagrama de slides com o Gemini e acabei desistindo. Ele é bom em fazer algo engraçado de uma vez, mas ajustes finos do tipo “muda só essa parte um pouquinho” são quase impossíveis. Senti muito claramente o abismo entre brinquedo e ferramenta

  • No HN, quando alguém fala “meu notebook”, parece sempre querer dizer um MacBook de alto desempenho. É mais poderoso que a maioria dos computadores

  • Se você perguntar diretamente ao Opus “você é bom em geração de imagem?”, ele responde “não”. Ele nunca foi divulgado originalmente como modelo de geração de imagem

    • Ultimamente venho suspeitando que a OpenAI esteja manipulando comentários no HN para mudar a direção da discussão. Vejo repetidamente comentários defendendo só a OpenAI em certos temas ou criticando outros modelos de forma excessiva
    • O Claude é muito bom em gerar SVG. Eu uso o Claude com frequência para criar ícones pequenos. Mas uma ilustração SVG de um pelicano andando de bicicleta, realisticamente, não tem utilidade. Pelicanos não andam de bicicleta
  • A linguagem é naturalmente cheia de metáforas espaciais (spatial metaphor). Por exemplo, em vez de dizer que o dinheiro “aumenta”, dizemos que ele “sobe”. Essa estrutura metafórica pode também se refletir na estrutura do espaço de pesos do modelo. Então, quanto mais o modelo aprende estratégias complexas, mais fundo esses padrões podem se enraizar. No futuro, eu gostaria de fazer um projeto comparando a geometria das ativações de modelos antigos e novos

  • O desempenho do Opus e do Sonnet em tarefas não relacionadas a programação vem caindo gradualmente desde a versão 4.1

  • Não sei o que demos assim provam. LLMs só são fortes em tarefas nas quais foram treinados, ou em tarefas parecidas. Gerar SVG não é originalmente esse tipo de tarefa. Antes eles não conseguiam porque havia poucos exemplos nos dados de treino, mas depois passaram a fazer mais ou menos quando exemplos foram adicionados para divulgação. Ainda assim, continua sem ser algo prático. Esse tipo de melhora não se traduz em avanço em outras capacidades. Agora que o aumento do tamanho dos modelos parou, o foco passou a ser otimização para tarefas específicas. Se existisse um conjunto secreto de tarefas fora do treino, daria para usar isso para avaliar de verdade a capacidade de generalização, mas este não é esse tipo de teste

  • Eu sou uma iguana e preciso levar minha bicicleta ao lava-rápido. Estou pensando se vou a pé ou de ônibus

    • Houve a sugestão de deixar a bicicleta com o pelicano para ele lavar no seu lugar
    • Também teve o conselho: “é longe demais. Chame um $PartnerRideshareCo”