Alibaba revela os modelos Qwen 2
(qwenlm.github.io)- Qwen2 é um modelo evoluído a partir do Qwen1.5, incluindo modelos pré-treinados e ajustados por instruções em 5 tamanhos
- Os tamanhos dos modelos são Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B e Qwen2-72B
- Além de inglês e chinês, recebeu treinamento adicional com dados em 27 idiomas
- Mostra desempenho de ponta em várias avaliações de benchmark, com grandes melhorias especialmente em código e matemática
- Os modelos Qwen2-7B-Instruct e Qwen2-72B-Instruct usam YARN para oferecer comprimento de contexto estendido de até 128K tokens
Informações sobre os modelos Qwen2
- Todos os tamanhos de modelo aplicam Group Query Attention (GQA) para aumentar a velocidade de inferência e reduzir o uso de memória
- Nos modelos menores, há preferência pelo uso da técnica de embedding tying
- Os modelos ajustados por instruções tiveram sua capacidade de lidar com comprimento de contexto avaliada por meio da tarefa Needle in a Haystack
- Com a tecnologia YARN, Qwen2-7B-Instruct e Qwen2-72B-Instruct conseguem processar até 128K tokens
Desempenho
- O pré-treinamento e o ajuste por instruções foram feitos com datasets em 27 idiomas além de inglês e chinês, reforçando a capacidade multilíngue
- A capacidade de lidar com code-switching melhorou bastante
- Com datasets de pré-treinamento e métodos de treinamento otimizados, o Qwen2-72B apresenta desempenho superior a modelos recentes como o Llama-3-70B
- O pós-treinamento melhorou ainda mais capacidades como programação, matemática, raciocínio, execução de instruções e compreensão multilíngue, além de alinhamento com valores humanos
- Em 16 benchmarks, o Qwen2-72B-Instruct supera com folga o Qwen1.5-72B-Chat e mostra desempenho comparável ao Llama-3-70B-Instruct
- Os modelos Qwen2 menores também superam modelos SOTA de tamanho semelhante ou maior, com destaque especial em métricas de código e de chinês
Principais pontos
- Ao integrar a experiência e os dados de treinamento em código do CodeQwen1.5, o Qwen2-72B-Instruct melhorou bastante o desempenho em várias linguagens de programação
- O uso de datasets amplos e de alta qualidade fortaleceu a capacidade do Qwen2-72B-Instruct de resolver problemas matemáticos
- O Qwen2-72B-Instruct consegue lidar perfeitamente com tarefas de extração de informação com contexto de 128K
- Também foi open source uma solução de agente eficiente para processar documentos de 1 milhão de tokens
- Na avaliação da taxa de respostas nocivas para consultas nocivas multilíngues de 4 tipos, o Qwen2-72B-Instruct mostrou um nível de segurança semelhante ao GPT-4 e muito superior ao Mistral-8x22B
Uso do Qwen2
- Todos os modelos foram disponibilizados no Hugging Face e no ModelScope, podendo ser usados livremente
- O Qwen2-72B e os modelos ajustados por instruções adotam a licença Qianwen License, enquanto os demais usam licença Apache 2.0
- Para saber como usar o Qwen2 com diversos frameworks de terceiros, consulte a documentação de cada framework e a documentação oficial
Planos futuros para o Qwen2
- Pretendem treinar modelos Qwen2 maiores para explorar o escalonamento do modelo junto com o escalonamento de dados
- Há planos de expandir o Qwen2 para um modelo de linguagem multimodal capaz de compreender também informações visuais e auditivas
- Continuarão abrindo novos modelos em open source para acelerar o avanço da IA open source
1 comentários
Alibaba, divulga o modelo de IA open source QWEN
Qwen1.5-110B : o primeiro modelo 100B+ da série LLM open source Qwen1.5 da Alibaba