- O Qwen2.5-Max é um modelo Mixture-of-Experts (MoE) de grande escala, pré-treinado com mais de 20 trilhões (20T) de tokens
- O treinamento posterior foi realizado por meio de Supervised Fine-Tuning (SFT) e aprendizado por reforço com feedback humano (RLHF)
- Mostra desempenho excepcional e vantagem na maioria dos benchmarks em comparação com DeepSeek V3, GPT-4o, Claude-3.5-Sonnet e Llama-3.1-405B
- Supera o DeepSeek V3 em Arena-Hard, LiveBench, LiveCodeBench e GPQA-Diamond, além de apresentar resultados competitivos no MMLU-Pro.
Principais resultados de benchmark
- Arena-Hard: avaliação aproximada de preferência humana
O Qwen2.5-Max registrou 89,4 pontos, mostrando o melhor desempenho. Superou DeepSeek V3 (85,5), GPT-4o (85,2) e Claude-3.5-Sonnet (77,9). O Llama-3.1-405B apresentou desempenho relativamente inferior, com 69,3 pontos.
- MMLU-Pro: avaliação de conhecimento em nível universitário
O Qwen2.5-Max obteve 76,1 pontos, mostrando desempenho praticamente equivalente ao DeepSeek V3 (75,9). O GPT-4o (78,0) ficou ligeiramente acima, mas o Qwen2.5-Max superou Claude-3.5-Sonnet (77,0) e Llama-3.1-405B (73,3).
- GPQA-Diamond: avaliação da capacidade geral de perguntas e respostas
O Qwen2.5-Max marcou 60,1 pontos, ficando um pouco à frente do DeepSeek V3 (59,1), e ligeiramente abaixo de GPT-4o (53,6), Claude-3.5-Sonnet (51,1) e Llama-3.1-405B (65,0).
- LiveCodeBench: avaliação de capacidade de programação
O Qwen2.5-Max registrou 38,7 pontos, um pouco acima do DeepSeek V3 (37,6). Ficou em nível semelhante ao GPT-4o (35,1), Claude-3.5-Sonnet (30,2) e Llama-3.1-405B (38,9).
- LiveBench: avaliação geral de desempenho do modelo
O Qwen2.5-Max obteve a maior pontuação, com 62,2 pontos. Desempenho superior ao DeepSeek V3 (60,5), GPT-4o (60,3), Claude-3.5-Sonnet (56,0) e Llama-3.1-405B (53,2).
Direções futuras
- A expansão dos dados e do tamanho do modelo demonstra o avanço da inteligência dos modelos, e a pesquisa segue dedicada a melhorar as capacidades de pensamento e raciocínio dos grandes modelos de linguagem
- Por meio da aplicação inovadora de aprendizado por reforço, abre-se a possibilidade de desenvolver modelos que superem a inteligência humana e explorar novos domínios de conhecimento e compreensão
1 comentários
2023-08-03 Alibaba revela o modelo de IA open source QWEN
2024-04-25 Qwen1.5-110B: o primeiro modelo 100B+ da série open source LLM Qwen1.5 da Alibaba
2024-06-07 Alibaba revela o modelo Qwen 2
2024-09-19 Qwen2.5 - revelados vários modelos fundacionais
2024-11-28 QwQ - o LLM de raciocínio da Alibaba, semelhante ao ChatGPT o1
2024-12-24 Impressões de uso do novo modelo de raciocínio visual QvQ da Qwen
2025-01-27 Qwen2.5-1M - implantando você mesmo o Qwen com suporte a até 1 milhão de tokens
Enquanto a DeepSeek está causando um grande impacto, a Qwen também está soltando resultados impressionantes, praticamente um por dia.
As empresas chinesas assustam.