5 pontos por xguru 2024-06-08 | 1 comentários | Compartilhar no WhatsApp
  • Qwen2 é um modelo evoluído a partir do Qwen1.5, incluindo modelos pré-treinados e ajustados por instruções em 5 tamanhos
    • Os tamanhos dos modelos são Qwen2-0.5B, Qwen2-1.5B, Qwen2-7B, Qwen2-57B-A14B e Qwen2-72B
  • Além de inglês e chinês, recebeu treinamento adicional com dados em 27 idiomas
  • Mostra desempenho de ponta em várias avaliações de benchmark, com grandes melhorias especialmente em código e matemática
  • Os modelos Qwen2-7B-Instruct e Qwen2-72B-Instruct usam YARN para oferecer comprimento de contexto estendido de até 128K tokens

Informações sobre os modelos Qwen2

  • Todos os tamanhos de modelo aplicam Group Query Attention (GQA) para aumentar a velocidade de inferência e reduzir o uso de memória
  • Nos modelos menores, há preferência pelo uso da técnica de embedding tying
  • Os modelos ajustados por instruções tiveram sua capacidade de lidar com comprimento de contexto avaliada por meio da tarefa Needle in a Haystack
  • Com a tecnologia YARN, Qwen2-7B-Instruct e Qwen2-72B-Instruct conseguem processar até 128K tokens

Desempenho

  • O pré-treinamento e o ajuste por instruções foram feitos com datasets em 27 idiomas além de inglês e chinês, reforçando a capacidade multilíngue
  • A capacidade de lidar com code-switching melhorou bastante
  • Com datasets de pré-treinamento e métodos de treinamento otimizados, o Qwen2-72B apresenta desempenho superior a modelos recentes como o Llama-3-70B
  • O pós-treinamento melhorou ainda mais capacidades como programação, matemática, raciocínio, execução de instruções e compreensão multilíngue, além de alinhamento com valores humanos
  • Em 16 benchmarks, o Qwen2-72B-Instruct supera com folga o Qwen1.5-72B-Chat e mostra desempenho comparável ao Llama-3-70B-Instruct
  • Os modelos Qwen2 menores também superam modelos SOTA de tamanho semelhante ou maior, com destaque especial em métricas de código e de chinês

Principais pontos

  • Ao integrar a experiência e os dados de treinamento em código do CodeQwen1.5, o Qwen2-72B-Instruct melhorou bastante o desempenho em várias linguagens de programação
  • O uso de datasets amplos e de alta qualidade fortaleceu a capacidade do Qwen2-72B-Instruct de resolver problemas matemáticos
  • O Qwen2-72B-Instruct consegue lidar perfeitamente com tarefas de extração de informação com contexto de 128K
  • Também foi open source uma solução de agente eficiente para processar documentos de 1 milhão de tokens
  • Na avaliação da taxa de respostas nocivas para consultas nocivas multilíngues de 4 tipos, o Qwen2-72B-Instruct mostrou um nível de segurança semelhante ao GPT-4 e muito superior ao Mistral-8x22B

Uso do Qwen2

  • Todos os modelos foram disponibilizados no Hugging Face e no ModelScope, podendo ser usados livremente
  • O Qwen2-72B e os modelos ajustados por instruções adotam a licença Qianwen License, enquanto os demais usam licença Apache 2.0
  • Para saber como usar o Qwen2 com diversos frameworks de terceiros, consulte a documentação de cada framework e a documentação oficial

Planos futuros para o Qwen2

  • Pretendem treinar modelos Qwen2 maiores para explorar o escalonamento do modelo junto com o escalonamento de dados
  • Há planos de expandir o Qwen2 para um modelo de linguagem multimodal capaz de compreender também informações visuais e auditivas
  • Continuarão abrindo novos modelos em open source para acelerar o avanço da IA open source