Alibaba revela os modelos Qwen 2

xguru · 2024-06-08T10:02:01+09:00

Qwen2 é um modelo evoluído a partir do Qwen1.5, incluindo modelos pré-treinados e ajustados por instruções em 5 tamanhos Os tamanhos dos modelos são Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B e Qwen2-72B Além de inglês e chinês, recebeu treinamento adicional com dados em 27 idiomas Mostra desempenho de ponta em várias avaliações de benchmark, com grandes melhorias especialmente em código e matemática Os modelos Qwen2-7B-Instruct e Qwen2-72B-Instruct usam YARN para oferecer comprimento de contexto estendido de até 128K tokens Informações sobre os modelos Qwen2 Todos os tamanhos de modelo aplicam Group Query Attention (GQA) para aumentar a velocidade de inferência e reduzir o uso de memória Nos modelos menores, há preferência pelo uso da técnica de embedding tying Os modelos ajustados por instruções tiveram sua capacidade de lidar com comprimento de contexto avaliada por meio da tarefa Needle in a Haystack Com a tecnologia YARN, Qwen2-7B-Instruct e Qwen2-72B-Instruct conseguem processar até 128K tokens Desempenho O pré-treinamento e o ajuste por instruções foram feitos com datasets em 27 idiomas além de inglês e chinês, reforçando a capacidade multilíngue A capacidade de lidar com code-switching melhorou bastante Com datasets de pré-treinamento e métodos de treinamento otimizados, o Qwen2-72B apresenta desempenho superior a modelos recentes como o Llama-3-70B O pós-treinamento melhorou ainda mais capacidades como programação, matemática, raciocínio, execução de instruções e compreensão multilíngue, além de alinhamento com valores humanos Em 16 benchmarks, o Qwen2-72B-Instruct supera com folga o Qwen1.5-72B-Chat e mostra desempenho comparável ao Llama-3-70B-Instruct Os modelos Qwen2 menores também superam modelos SOTA de tamanho semelhante ou maior, com destaque especial em métricas de código e de chinês Principais pontos Ao integrar a experiência e os dados de treinamento em código do CodeQwen1.5, o Qwen2-72B-Instruct melhorou bastante o desempenho em várias linguagens de programação O uso de datasets amplos e de alta qualidade fortaleceu a capacidade do Qwen2-72B-Instruct de resolver problemas matemáticos O Qwen2-72B-Instruct consegue lidar perfeitamente com tarefas de extração de informação com contexto de 128K Também foi open source uma solução de agente eficiente para processar documentos de 1 milhão de tokens Na avaliação da taxa de respostas nocivas para consultas nocivas multilíngues de 4 tipos, o Qwen2-72B-Instruct mostrou um nível de segurança semelhante ao GPT-4 e muito superior ao Mistral-8x22B Uso do Qwen2 Todos os modelos foram disponibilizados no Hugging Face e no ModelScope, podendo ser usados livremente O Qwen2-72B e os modelos ajustados por instruções adotam a licença Qianwen License, enquanto os demais usam licença Apache 2.0 Para saber como usar o Qwen2 com diversos frameworks de terceiros, consulte a documentação de cada framework e a documentação oficial Planos futuros para o Qwen2 Pretendem treinar modelos Qwen2 maiores para explorar o escalonamento do modelo junto com o escalonamento de dados Há planos de expandir o Qwen2 para um modelo de linguagem multimodal capaz de compreender também informações visuais e auditivas Continuarão abrindo novos modelos em open source para acelerar o avanço da IA open source

(qwenlm.github.io)

5 pontos por xguru 2024-06-08 | 1 comentários | Compartilhar no WhatsApp

Qwen2 é um modelo evoluído a partir do Qwen1.5, incluindo modelos pré-treinados e ajustados por instruções em 5 tamanhos
- Os tamanhos dos modelos são Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B e Qwen2-72B
Além de inglês e chinês, recebeu treinamento adicional com dados em 27 idiomas
Mostra desempenho de ponta em várias avaliações de benchmark, com grandes melhorias especialmente em código e matemática
Os modelos Qwen2-7B-Instruct e Qwen2-72B-Instruct usam YARN para oferecer comprimento de contexto estendido de até 128K tokens

Informações sobre os modelos Qwen2

Todos os tamanhos de modelo aplicam Group Query Attention (GQA) para aumentar a velocidade de inferência e reduzir o uso de memória
Nos modelos menores, há preferência pelo uso da técnica de embedding tying
Os modelos ajustados por instruções tiveram sua capacidade de lidar com comprimento de contexto avaliada por meio da tarefa Needle in a Haystack
Com a tecnologia YARN, Qwen2-7B-Instruct e Qwen2-72B-Instruct conseguem processar até 128K tokens

Desempenho

O pré-treinamento e o ajuste por instruções foram feitos com datasets em 27 idiomas além de inglês e chinês, reforçando a capacidade multilíngue
A capacidade de lidar com code-switching melhorou bastante
Com datasets de pré-treinamento e métodos de treinamento otimizados, o Qwen2-72B apresenta desempenho superior a modelos recentes como o Llama-3-70B
O pós-treinamento melhorou ainda mais capacidades como programação, matemática, raciocínio, execução de instruções e compreensão multilíngue, além de alinhamento com valores humanos
Em 16 benchmarks, o Qwen2-72B-Instruct supera com folga o Qwen1.5-72B-Chat e mostra desempenho comparável ao Llama-3-70B-Instruct
Os modelos Qwen2 menores também superam modelos SOTA de tamanho semelhante ou maior, com destaque especial em métricas de código e de chinês

Principais pontos

Ao integrar a experiência e os dados de treinamento em código do CodeQwen1.5, o Qwen2-72B-Instruct melhorou bastante o desempenho em várias linguagens de programação
O uso de datasets amplos e de alta qualidade fortaleceu a capacidade do Qwen2-72B-Instruct de resolver problemas matemáticos
O Qwen2-72B-Instruct consegue lidar perfeitamente com tarefas de extração de informação com contexto de 128K
Também foi open source uma solução de agente eficiente para processar documentos de 1 milhão de tokens
Na avaliação da taxa de respostas nocivas para consultas nocivas multilíngues de 4 tipos, o Qwen2-72B-Instruct mostrou um nível de segurança semelhante ao GPT-4 e muito superior ao Mistral-8x22B

Uso do Qwen2

Todos os modelos foram disponibilizados no Hugging Face e no ModelScope, podendo ser usados livremente
O Qwen2-72B e os modelos ajustados por instruções adotam a licença Qianwen License, enquanto os demais usam licença Apache 2.0
Para saber como usar o Qwen2 com diversos frameworks de terceiros, consulte a documentação de cada framework e a documentação oficial

Planos futuros para o Qwen2

Pretendem treinar modelos Qwen2 maiores para explorar o escalonamento do modelo junto com o escalonamento de dados
Há planos de expandir o Qwen2 para um modelo de linguagem multimodal capaz de compreender também informações visuais e auditivas
Continuarão abrindo novos modelos em open source para acelerar o avanço da IA open source

1 comentários

xguru 2024-06-08

Alibaba, divulga o modelo de IA open source QWEN
Qwen1.5-110B : o primeiro modelo 100B+ da série LLM open source Qwen1.5 da Alibaba