Qwen2.5-Max: explorando a inteligência de um modelo MoE de grande escala

(qwenlm.github.io)

1 pontos por GN⁺ 2025-01-29 | 2 comentários | Compartilhar no WhatsApp

Qwen2.5-Max é um modelo MoE de grande escala pré-treinado com mais de 20 trilhões de tokens, depois refinado com SFT e RLHF, e disponibilizado na API da Alibaba Cloud e no Qwen Chat
A avaliação inclui MMLU-Pro, LiveCodeBench, LiveBench e Arena-Hard, e o modelo instruct foi comparado com foco em usos downstream reais, como chat e programação
O Qwen2.5-Max superou o DeepSeek V3 em Arena-Hard, LiveBench, LiveCodeBench e GPQA-Diamond, além de apresentar resultados competitivos também no MMLU-Pro e em outros testes
Na comparação entre modelos base, como não houve acesso direto ao GPT-4o e ao Claude-3.5-Sonnet, os alvos de comparação foram DeepSeek V3, Llama-3.1-405B e Qwen2.5-72B
O nome do modelo na API é qwen-max-2025-01-25 e ele segue um formato compatível com a API da OpenAI, permitindo aproveitar fluxos de chamada já baseados em clientes OpenAI

Escala do modelo e resultados de benchmark

O Qwen2.5-Max é um modelo MoE de grande escala desenvolvido com base na premissa de que ampliar o tamanho dos dados e do modelo pode levar a melhorias na inteligência do modelo
O modelo foi pré-treinado com mais de 20 trilhões de tokens e depois passou por pós-treinamento com Supervised Fine-Tuning (SFT) e Reinforcement Learning from Human Feedback (RLHF) selecionados
A avaliação de desempenho usa em conjunto benchmarks importantes de conhecimento, programação e capacidade geral
- MMLU-Pro: avaliação de conhecimento por meio de questões de nível universitário
- LiveCodeBench: avaliação de capacidade de programação
- LiveBench: avaliação geral de capacidades
- Arena-Hard: avaliação mais próxima das preferências humanas
No modelo instruct, foram comparados Qwen2.5-Max, DeepSeek V3, GPT-4o e Claude-3.5-Sonnet
- O Qwen2.5-Max superou o DeepSeek V3 em Arena-Hard, LiveBench, LiveCodeBench e GPQA-Diamond
- Também mostrou resultados competitivos nas demais avaliações, incluindo o MMLU-Pro
Na comparação entre modelos base, como não foi possível acessar modelos proprietários como GPT-4o e Claude-3.5-Sonnet, a avaliação foi centrada em modelos de pesos abertos
- Os modelos comparados foram DeepSeek V3, Llama-3.1-405B e Qwen2.5-72B
- O modelo base Qwen2.5-Max mostrou uma vantagem significativa na maioria dos benchmarks
As versões futuras têm como meta um desempenho ainda maior por meio de melhorias nas técnicas de pós-treinamento

Uso da API e próximos desafios

O Qwen2.5-Max pode ser usado no Qwen Chat, onde é possível conversar diretamente com ele e usar artifacts, search etc.
A API é oferecida pela Alibaba Cloud
- O nome do modelo é qwen-max-2025-01-25
- É possível registrar uma conta na Alibaba Cloud, ativar o serviço Model Studio e depois criar uma chave de API no console
A API do Qwen é compatível com a API da OpenAI, então pode ser chamada com um cliente OpenAI

from openai import OpenAI
import os

client = OpenAI(
    api_key=os.getenv("API_KEY"),
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1";,
)

completion = client.chat.completions.create(
    model="qwen-max-2025-01-25",
    messages=[
        {'role': 'system', 'content': 'You are a helpful assistant.'},
        {'role': 'user', 'content': 'Which number is larger, 9.11 or 9.8?'}
    ]
)

print(completion.choices[0].message)

Os próximos trabalhos se concentram em aplicar aprendizado por reforço expandido para elevar a capacidade de pensamento e raciocínio de grandes modelos de linguagem
As informações de citação relacionadas ao Qwen2.5 são o preprint no arXiv Qwen2.5 technical report, arXiv:2412.15115

2 comentários

GN⁺ 2025-01-29

Comentários no Hacker News

Com o lançamento recente do DeepSeek V3, eles mesmos mostraram o quanto os detalhes centrais do processo de escalonamento são úteis, mas aí não divulgam as próprias informações de treinamento
Se é uma API fechada e não há mais informações, então a afirmação de que está “quase no nível do o1” não me interessa muito
- Nem está “quase no nível do o1”. A comparação é só com o 4o, que é mais antigo
  Dá para assumir com segurança que o Qwen2.5-Max terá pontuação inferior aos modelos de raciocínio mais recentes (o1, DeepSeek-R1, Gemini 2.0 Flash Thinking)
  Se aplicarem aprendizado por reforço para raciocínio, há chance de virar um modelo muito forte, mas como todas as receitas bem-sucedidas são fechadas, isso pode levar tempo. Até lá, dá para fazer ajuste fino supervisionado (SFT) com base nas cadeias de raciocínio de outros modelos, mas até o relatório técnico do DeepSeek-R1 diz que isso não é tão bom quanto aprendizado por reforço
Achei que havia três itens sobre DeepSeek na primeira página do HN, mas no fim era o quarto. Era um post dizendo que a equipe do Qwen tem uma versão secreta do Qwen que seria melhor que o DeepSeek-V3
Não me lembro de outra vez em que 20% da primeira página do HN era o mesmo assunto. Claro, também não me vem à cabeça outro caso de uma empresa perder US$ 569 bilhões em valor de mercado como a NVIDIA perdeu ontem
- Deixei passar que 4 ÷ 30 não é 20%. Na verdade, fica mais perto de 13%. Foi um erro idiota
Demo no HuggingFace: https://huggingface.co/spaces/Qwen/Qwen2.5-Max-Demo
Fonte: https://x.com/Alibaba_Qwen/status/1884263157574820053
É bem surpreendente que uma empresa chinesa tenha anunciado isso na véspera do Ano-Novo Lunar. O anúncio do DeepSeek claramente acendeu o pavio
Já é inesperado por si só que qualquer coisa esteja avançando nas empresas de tecnologia chinesas neste momento
- Os engenheiros da DeepSeek provavelmente estão desesperadamente lidando com incidentes porque a capacidade está muito abaixo do necessário. Os concorrentes parecem já ter lançado às pressas, ou decidido soltar discretamente algo que já estavam preparando. O clima parece ser de todo mundo trabalhando pesado
- Parece com quando o Gemini chegou ao 1º lugar no ranking do Chatbot Arena e a OpenAI lançou um modelo no dia seguinte
Parece ser o novo modelo de melhor desempenho da Qwen, e por enquanto é só via API. Estão dizendo que é melhor que o DeepSeek v3
- Dá para usar pelo seletor de modelos em https://chat.qwenlm.ai/
Rodei meu benchmark do NYT Connections e deu 18,6 pontos, acima dos 14,8 do Qwen 2.5 72B. Pretendo rodar outros benchmarks depois
https://github.com/lechmazur/nyt-connections/
Mistura de especialistas (MoE) na nuvem parece meio questionável. Já em máquinas de nível desktop, isso pode realmente brilhar
A memória está ficando cada vez mais rápida, então em breve até modelos relativamente grandes podem deixar de ser dolorosamente lentos com MoE
Sem pesos, sem provas
- Vai dizer a mesma coisa quando a OpenAI lançar um modelo novo?
Este não é um modelo de raciocínio. Se venceu o DeepSeek V3 nos benchmarks, a versão de raciocínio talvez consiga superar até o o1 Pro

xguru 2025-01-29

2023-08-03 Alibaba revela o modelo de IA open source QWEN
2024-04-25 Qwen1.5-110B: o primeiro modelo 100B+ da série open source LLM Qwen1.5 da Alibaba
2024-06-07 Alibaba revela o modelo Qwen 2
2024-09-19 Qwen2.5 - revelados vários modelos fundacionais
2024-11-28 QwQ - o LLM de raciocínio da Alibaba, semelhante ao ChatGPT o1
2024-12-24 Impressões de uso do novo modelo de raciocínio visual QvQ da Qwen
2025-01-27 Qwen2.5-1M - implantando você mesmo o Qwen com suporte a até 1 milhão de tokens

Enquanto a DeepSeek está causando um grande impacto, a Qwen também está soltando resultados impressionantes, praticamente um por dia.
As empresas chinesas assustam.