7 pontos por xguru 2024-09-20 | 1 comentários | Compartilhar no WhatsApp
  • O Qwen2.5 inclui modelos especializados como o LLM Qwen2.5, o Qwen2.5-Coder para programação e o Qwen2.5-Math para matemática
  • Todos os modelos open weight são modelos de linguagem dense decoder-only e são oferecidos em vários tamanhos, de 0.5B a 72B
  • Todos os modelos open source, exceto os modelos 3B e 72B, são oferecidos sob a licença Apache 2.0
  • Os modelos de linguagem flagship Qwen-Plus e Qwen-Turbo são oferecidos via API por meio do Model Studio
  • O Qwen2-VL-72B também foi lançado como open source, com desempenho melhorado em relação à versão do mês passado

Características do Qwen2.5

  • Foi pré-treinado com um grande conjunto de dados de até 18 trilhões de tokens, ampliando bastante seu conhecimento em relação ao Qwen2 (MMLU: 85+)
  • As capacidades em programação (HumanEval 85+) e matemática (MATH 80+) também melhoraram significativamente
  • Houve grande melhora em seguir instruções, gerar textos longos (mais de 8K tokens), entender dados estruturados (por exemplo, tabelas) e produzir saídas estruturadas como JSON
  • Tornou-se mais robusto a diferentes system prompts, facilitando desempenhar papéis de chatbot e definir condições
  • Assim como o Qwen2, o modelo de linguagem Qwen2.5 suporta até 128K tokens e pode gerar até 8K tokens
  • Suporta mais de 29 idiomas, incluindo chinês, inglês, francês, espanhol, português, alemão, italiano, russo, japonês, coreano, vietnamita, tailandês e árabe

Desempenho

Qwen2.5

  • O desempenho do maior modelo open source, o Qwen2.5-72B (modelo de linguagem dense decoder-only de 72B de parâmetros), é comparado com grandes modelos open source como Llama-3.1-70B e Mistral-Large-V2
  • Apresenta resultados abrangentes de versões ajustadas por instrução em vários benchmarks, avaliando tanto as capacidades do modelo quanto a preferência humana
  • Além dos modelos de linguagem ajustados por instrução, o modelo base Qwen2.5-72B também mostra desempenho de ponta mesmo em comparação com modelos maiores como o Llama-3-405B
  • A versão mais recente do modelo baseado em API, Qwen-Plus, é comparada com modelos proprietários e open source conhecidos como GPT4-o, Claude-3.5-Sonnet, Llama-3.1-405B e DeepSeek-V2.5
    • O Qwen-Plus supera com folga o DeepSeek-V2.5 e apresenta desempenho equivalente ao Llama-3.1-405B, mas em alguns aspectos fica abaixo de GPT4-o e Claude-3.5-Sonnet
  • Reintroduz os modelos Qwen2.5-14B e Qwen2.5-32B. Esses modelos superam modelos de referência de tamanho semelhante ou maior, como Phi-3.5-MoE-Instruct e Gemma2-27B-IT
  • O modelo baseado em API Qwen-Turbo oferece serviço rápido a um preço razoável e mostra desempenho muito competitivo em relação aos dois modelos open source
  • O Qwen2.5-3B entrega desempenho muito impressionante com cerca de 3 bilhões de parâmetros, com eficiência e capacidade superiores à versão anterior
  • Além das melhorias nas avaliações de benchmark, a metodologia de pós-treinamento também foi aprimorada. As 4 principais atualizações são suporte à geração de textos longos de até 8K tokens, melhora significativa na compreensão de dados estruturados, geração mais confiável de saídas estruturadas como JSON e melhor desempenho com diversos system prompts, ajudando na execução de papéis
Publicidade

Qwen2.5-Coder

  • Desde o lançamento do CodeQwen1.5, muitos usuários passaram a depender desse modelo para várias tarefas de programação, como depuração, respostas a perguntas sobre código e sugestões de código
  • A versão mais recente, Qwen2.5-Coder, foi projetada especificamente para aplicações de programação
  • Apesar do tamanho reduzido, mostra excelentes capacidades de programação, superando modelos de linguagem maiores em várias linguagens e tarefas

Qwen2.5-Math

  • No mês passado foi lançado pela primeira vez o modelo de linguagem especializado em matemática Qwen2-Math, e em comparação com ele, o Qwen2.5-Math foi pré-treinado com um volume maior de dados relacionados à matemática, incluindo dados sintéticos gerados pelo Qwen2-Math
  • Desta vez, o suporte ao chinês foi ampliado e foram adicionadas capacidades de CoT, PoT e TIR, reforçando também a capacidade de raciocínio
  • O desempenho geral do Qwen2.5-Math-72B-Instruct supera o Qwen2-Math-72B-Instruct e o GPT4-o, e até mesmo um modelo especialista muito pequeno como o Qwen2.5-Math-1.5B-Instruct pode apresentar desempenho altamente competitivo em comparação com grandes modelos de linguagem

Desenvolvendo com Qwen2.5

  • Para usar o Qwen2.5 com vLLM, é possível implantar um serviço compatível com a API da OpenAI com o seguinte comando:
  • O Qwen2.5 suporta o tool calling nativo do vllm. Esse recurso exige vllm>=0.6
  • O Qwen2.5 também suporta o tool calling do Ollama
  • Também está disponível o suporte a tool calling do transformers da Hugging Face
  • Anteriormente, o Qwen-Agent suportava tool calling usando o template de tool calling próprio do Qwen2, e o Qwen2.5 também mantém compatibilidade com o template do Qwen2 e com o Qwen-Agent

Quais são os próximos planos?

  • Estamos felizes por lançar ao mesmo tempo muitos modelos de alta qualidade, mas reconhecemos que ainda restam desafios importantes
  • Os lançamentos recentes mostram que estamos trabalhando para desenvolver modelos fundacionais fortes nas áreas de linguagem, visão-linguagem e áudio-linguagem
  • No entanto, é importante integrar essas diferentes modalidades em um único modelo, para que ele possa processar informações de todas as áreas de forma fluida
  • Melhoramos a capacidade de raciocínio por meio do escalonamento de dados, mas inspirados pelos recentes avanços em aprendizado por reforço, também estamos comprometidos em ampliar o inference compute para elevar ainda mais a capacidade de raciocínio dos modelos