1 pontos por GN⁺ 2025-01-29 | 1 comentários | Compartilhar no WhatsApp
  • O Qwen2.5-Max é um modelo Mixture-of-Experts (MoE) de grande escala, pré-treinado com mais de 20 trilhões (20T) de tokens
  • O treinamento posterior foi realizado por meio de Supervised Fine-Tuning (SFT) e aprendizado por reforço com feedback humano (RLHF)
  • Mostra desempenho excepcional e vantagem na maioria dos benchmarks em comparação com DeepSeek V3, GPT-4o, Claude-3.5-Sonnet e Llama-3.1-405B
    • Supera o DeepSeek V3 em Arena-Hard, LiveBench, LiveCodeBench e GPQA-Diamond, além de apresentar resultados competitivos no MMLU-Pro.

Principais resultados de benchmark

  • Arena-Hard: avaliação aproximada de preferência humana
    O Qwen2.5-Max registrou 89,4 pontos, mostrando o melhor desempenho. Superou DeepSeek V3 (85,5), GPT-4o (85,2) e Claude-3.5-Sonnet (77,9). O Llama-3.1-405B apresentou desempenho relativamente inferior, com 69,3 pontos.
  • MMLU-Pro: avaliação de conhecimento em nível universitário
    O Qwen2.5-Max obteve 76,1 pontos, mostrando desempenho praticamente equivalente ao DeepSeek V3 (75,9). O GPT-4o (78,0) ficou ligeiramente acima, mas o Qwen2.5-Max superou Claude-3.5-Sonnet (77,0) e Llama-3.1-405B (73,3).
  • GPQA-Diamond: avaliação da capacidade geral de perguntas e respostas
    O Qwen2.5-Max marcou 60,1 pontos, ficando um pouco à frente do DeepSeek V3 (59,1), e ligeiramente abaixo de GPT-4o (53,6), Claude-3.5-Sonnet (51,1) e Llama-3.1-405B (65,0).
  • LiveCodeBench: avaliação de capacidade de programação
    O Qwen2.5-Max registrou 38,7 pontos, um pouco acima do DeepSeek V3 (37,6). Ficou em nível semelhante ao GPT-4o (35,1), Claude-3.5-Sonnet (30,2) e Llama-3.1-405B (38,9).
  • LiveBench: avaliação geral de desempenho do modelo
    O Qwen2.5-Max obteve a maior pontuação, com 62,2 pontos. Desempenho superior ao DeepSeek V3 (60,5), GPT-4o (60,3), Claude-3.5-Sonnet (56,0) e Llama-3.1-405B (53,2).

Direções futuras

  • A expansão dos dados e do tamanho do modelo demonstra o avanço da inteligência dos modelos, e a pesquisa segue dedicada a melhorar as capacidades de pensamento e raciocínio dos grandes modelos de linguagem
  • Por meio da aplicação inovadora de aprendizado por reforço, abre-se a possibilidade de desenvolver modelos que superem a inteligência humana e explorar novos domínios de conhecimento e compreensão