Qwen2.5 - vários modelos fundacionais revelados

xguru · 2024-09-20T11:22:54+09:00

O Qwen2.5 inclui modelos especializados como o LLM Qwen2.5, o Qwen2.5-Coder para programação e o Qwen2.5-Math para matemática Todos os modelos open weight são modelos de linguagem dense decoder-only e são oferecidos em vários tamanhos, de 0.5B a 72B Todos os modelos open source, exceto os modelos 3B e 72B, são oferecidos sob a licença Apache 2.0 Os modelos de linguagem flagship Qwen-Plus e Qwen-Turbo são oferecidos via API por meio do Model Studio O Qwen2-VL-72B também foi lançado como open source, com desempenho melhorado em relação à versão do mês passado Características do Qwen2.5 Foi pré-treinado com um grande conjunto de dados de até 18 trilhões de tokens, ampliando bastante seu conhecimento em relação ao Qwen2 (MMLU: 85+) As capacidades em programação (HumanEval 85+) e matemática (MATH 80+) também melhoraram significativamente Houve grande melhora em seguir instruções, gerar textos longos (mais de 8K tokens), entender dados estruturados (por exemplo, tabelas) e produzir saídas estruturadas como JSON Tornou-se mais robusto a diferentes system prompts, facilitando desempenhar papéis de chatbot e definir condições Assim como o Qwen2, o modelo de linguagem Qwen2.5 suporta até 128K tokens e pode gerar até 8K tokens Suporta mais de 29 idiomas, incluindo chinês, inglês, francês, espanhol, português, alemão, italiano, russo, japonês, coreano, vietnamita, tailandês e árabe Desempenho Qwen2.5 O desempenho do maior modelo open source, o Qwen2.5-72B (modelo de linguagem dense decoder-only de 72B de parâmetros), é comparado com grandes modelos open source como Llama-3.1-70B e Mistral-Large-V2 Apresenta resultados abrangentes de versões ajustadas por instrução em vários benchmarks, avaliando tanto as capacidades do modelo quanto a preferência humana Além dos modelos de linguagem ajustados por instrução, o modelo base Qwen2.5-72B também mostra desempenho de ponta mesmo em comparação com modelos maiores como o Llama-3-405B A versão mais recente do modelo baseado em API, Qwen-Plus, é comparada com modelos proprietários e open source conhecidos como GPT4-o, Claude-3.5-Sonnet, Llama-3.1-405B e DeepSeek-V2.5 O Qwen-Plus supera com folga o DeepSeek-V2.5 e apresenta desempenho equivalente ao Llama-3.1-405B, mas em alguns aspectos fica abaixo de GPT4-o e Claude-3.5-Sonnet Reintroduz os modelos Qwen2.5-14B e Qwen2.5-32B. Esses modelos superam modelos de referência de tamanho semelhante ou maior, como Phi-3.5-MoE-Instruct e Gemma2-27B-IT O modelo baseado em API Qwen-Turbo oferece serviço rápido a um preço razoável e mostra desempenho muito competitivo em relação aos dois modelos open source O Qwen2.5-3B entrega desempenho muito impressionante com cerca de 3 bilhões de parâmetros, com eficiência e capacidade superiores à versão anterior Além das melhorias nas avaliações de benchmark, a metodologia de pós-treinamento também foi aprimorada. As 4 principais atualizações são suporte à geração de textos longos de até 8K tokens, melhora significativa na compreensão de dados estruturados, geração mais confiável de saídas estruturadas como JSON e melhor desempenho com diversos system prompts, ajudando na execução de papéis Qwen2.5-Coder Desde o lançamento do CodeQwen1.5, muitos usuários passaram a depender desse modelo para várias tarefas de programação, como depuração, respostas a perguntas sobre código e sugestões de código A versão mais recente, Qwen2.5-Coder, foi projetada especificamente para aplicações de programação Apesar do tamanho reduzido, mostra excelentes capacidades de programação, superando modelos de linguagem maiores em várias linguagens e tarefas Qwen2.5-Math No mês passado foi lançado pela primeira vez o modelo de linguagem especializado em matemática Qwen2-Math, e em comparação com ele, o Qwen2.5-Math foi pré-treinado com um volume maior de dados relacionados à matemática, incluindo dados sintéticos gerados pelo Qwen2-Math Desta vez, o suporte ao chinês foi ampliado e foram adicionadas capacidades de CoT, PoT e TIR, reforçando também a capacidade de raciocínio O desempenho geral do Qwen2.5-Math-72B-Instruct supera o Qwen2-Math-72B-Instruct e o GPT4-o, e até mesmo um modelo especialista muito pequeno como o Qwen2.5-Math-1.5B-Instruct pode apresentar desempenho altamente competitivo em comparação com grandes modelos de linguagem Desenvolvendo com Qwen2.5 Para usar o Qwen2.5 com vLLM, é possível implantar um serviço compatível com a API da OpenAI com o seguinte comando: O Qwen2.5 suporta o tool calling nativo do vllm. Esse recurso exige vllm>=0.6 O Qwen2.5 também suporta o tool calling do Ollama Também está disponível o suporte a tool calling do transformers da Hugging Face Anteriormente, o Qwen-Agent suportava tool calling usando o template de tool calling próprio do Qwen2, e o Qwen2.5 também mantém compatibilidade com o template do Qwen2 e com o Qwen-Agent Quais são os próximos planos? Estamos felizes por lançar ao mesmo tempo muitos modelos de alta qualidade, mas reconhecemos que ainda restam desafios importantes Os lançamentos recentes mostram que estamos trabalhando para desenvolver modelos fundacionais fortes nas áreas de linguagem, visão-linguagem e áudio-linguagem No entanto, é importante integrar essas diferentes modalidades em um único modelo, para que ele possa processar informações de todas as áreas de forma fluida Melhoramos a capacidade de raciocínio por meio do escalonamento de dados, mas inspirados pelos recentes avanços em aprendizado por reforço, também estamos comprometidos em ampliar o inference compute para elevar ainda mais a capacidade de raciocínio dos modelos

(qwenlm.github.io)

7 pontos por xguru 2024-09-20 | 1 comentários | Compartilhar no WhatsApp

O Qwen2.5 inclui modelos especializados como o LLM Qwen2.5, o Qwen2.5-Coder para programação e o Qwen2.5-Math para matemática
Todos os modelos open weight são modelos de linguagem dense decoder-only e são oferecidos em vários tamanhos, de 0.5B a 72B
Todos os modelos open source, exceto os modelos 3B e 72B, são oferecidos sob a licença Apache 2.0
Os modelos de linguagem flagship Qwen-Plus e Qwen-Turbo são oferecidos via API por meio do Model Studio
O Qwen2-VL-72B também foi lançado como open source, com desempenho melhorado em relação à versão do mês passado

Características do Qwen2.5

Foi pré-treinado com um grande conjunto de dados de até 18 trilhões de tokens, ampliando bastante seu conhecimento em relação ao Qwen2 (MMLU: 85+)
As capacidades em programação (HumanEval 85+) e matemática (MATH 80+) também melhoraram significativamente
Houve grande melhora em seguir instruções, gerar textos longos (mais de 8K tokens), entender dados estruturados (por exemplo, tabelas) e produzir saídas estruturadas como JSON
Tornou-se mais robusto a diferentes system prompts, facilitando desempenhar papéis de chatbot e definir condições
Assim como o Qwen2, o modelo de linguagem Qwen2.5 suporta até 128K tokens e pode gerar até 8K tokens
Suporta mais de 29 idiomas, incluindo chinês, inglês, francês, espanhol, português, alemão, italiano, russo, japonês, coreano, vietnamita, tailandês e árabe

Desempenho

Qwen2.5

O desempenho do maior modelo open source, o Qwen2.5-72B (modelo de linguagem dense decoder-only de 72B de parâmetros), é comparado com grandes modelos open source como Llama-3.1-70B e Mistral-Large-V2
Apresenta resultados abrangentes de versões ajustadas por instrução em vários benchmarks, avaliando tanto as capacidades do modelo quanto a preferência humana
Além dos modelos de linguagem ajustados por instrução, o modelo base Qwen2.5-72B também mostra desempenho de ponta mesmo em comparação com modelos maiores como o Llama-3-405B
A versão mais recente do modelo baseado em API, Qwen-Plus, é comparada com modelos proprietários e open source conhecidos como GPT4-o, Claude-3.5-Sonnet, Llama-3.1-405B e DeepSeek-V2.5
- O Qwen-Plus supera com folga o DeepSeek-V2.5 e apresenta desempenho equivalente ao Llama-3.1-405B, mas em alguns aspectos fica abaixo de GPT4-o e Claude-3.5-Sonnet
Reintroduz os modelos Qwen2.5-14B e Qwen2.5-32B. Esses modelos superam modelos de referência de tamanho semelhante ou maior, como Phi-3.5-MoE-Instruct e Gemma2-27B-IT
O modelo baseado em API Qwen-Turbo oferece serviço rápido a um preço razoável e mostra desempenho muito competitivo em relação aos dois modelos open source
O Qwen2.5-3B entrega desempenho muito impressionante com cerca de 3 bilhões de parâmetros, com eficiência e capacidade superiores à versão anterior
Além das melhorias nas avaliações de benchmark, a metodologia de pós-treinamento também foi aprimorada. As 4 principais atualizações são suporte à geração de textos longos de até 8K tokens, melhora significativa na compreensão de dados estruturados, geração mais confiável de saídas estruturadas como JSON e melhor desempenho com diversos system prompts, ajudando na execução de papéis

Qwen2.5-Coder

Desde o lançamento do CodeQwen1.5, muitos usuários passaram a depender desse modelo para várias tarefas de programação, como depuração, respostas a perguntas sobre código e sugestões de código
A versão mais recente, Qwen2.5-Coder, foi projetada especificamente para aplicações de programação
Apesar do tamanho reduzido, mostra excelentes capacidades de programação, superando modelos de linguagem maiores em várias linguagens e tarefas

Qwen2.5-Math

No mês passado foi lançado pela primeira vez o modelo de linguagem especializado em matemática Qwen2-Math, e em comparação com ele, o Qwen2.5-Math foi pré-treinado com um volume maior de dados relacionados à matemática, incluindo dados sintéticos gerados pelo Qwen2-Math
Desta vez, o suporte ao chinês foi ampliado e foram adicionadas capacidades de CoT, PoT e TIR, reforçando também a capacidade de raciocínio
O desempenho geral do Qwen2.5-Math-72B-Instruct supera o Qwen2-Math-72B-Instruct e o GPT4-o, e até mesmo um modelo especialista muito pequeno como o Qwen2.5-Math-1.5B-Instruct pode apresentar desempenho altamente competitivo em comparação com grandes modelos de linguagem

Desenvolvendo com Qwen2.5

Para usar o Qwen2.5 com vLLM, é possível implantar um serviço compatível com a API da OpenAI com o seguinte comando:
O Qwen2.5 suporta o tool calling nativo do vllm. Esse recurso exige vllm>=0.6
O Qwen2.5 também suporta o tool calling do Ollama
Também está disponível o suporte a tool calling do transformers da Hugging Face
Anteriormente, o Qwen-Agent suportava tool calling usando o template de tool calling próprio do Qwen2, e o Qwen2.5 também mantém compatibilidade com o template do Qwen2 e com o Qwen-Agent

Quais são os próximos planos?

Estamos felizes por lançar ao mesmo tempo muitos modelos de alta qualidade, mas reconhecemos que ainda restam desafios importantes
Os lançamentos recentes mostram que estamos trabalhando para desenvolver modelos fundacionais fortes nas áreas de linguagem, visão-linguagem e áudio-linguagem
No entanto, é importante integrar essas diferentes modalidades em um único modelo, para que ele possa processar informações de todas as áreas de forma fluida
Melhoramos a capacidade de raciocínio por meio do escalonamento de dados, mas inspirados pelos recentes avanços em aprendizado por reforço, também estamos comprometidos em ampliar o inference compute para elevar ainda mais a capacidade de raciocínio dos modelos

1 comentários

xguru 2024-09-20

Alibaba, lança o modelo de IA open source QWEN
Alibaba, lança o modelo Qwen 2