Qwen1.5-110B: o primeiro modelo 100B+ da série open source de LLMs Qwen1.5 da Alibaba
(qwenlm.github.io)- A comunidade open source vem lançando recentemente modelos de grande porte com mais de 100 bilhões de parâmetros, mostrando desempenho impressionante em benchmarks e na área de chatbots
- A Alibaba também apresentou o Qwen1.5-110B, o primeiro modelo 100B+ da série Qwen1.5
- Na avaliação do modelo base, ele alcançou desempenho comparável ao Meta-Llama3-70B e mostrou excelente desempenho em avaliações de chat, incluindo MT-Bench e AlpacaEval 2.0
Características do modelo Qwen1.5-110B
- O Qwen1.5-110B é semelhante aos outros modelos Qwen1.5 e foi construído com a mesma arquitetura de decodificador Transformer
- É composto com Grouped Query Attention (GQA), o que o torna eficiente para serving do modelo
- Suporta comprimento de contexto de 32K tokens e é um modelo multilíngue com suporte a diversos idiomas, incluindo inglês, chinês, francês, espanhol, alemão, russo, coreano, japonês, vietnamita e árabe
Resultados da avaliação do modelo de linguagem base
- Foi comparado por meio de uma série de avaliações do modelo de linguagem base com os recentes modelos de linguagem SOTA Meta-Llama3-70B e Mixtral-8x22B
- Segundo os resultados, o novo modelo 110B é pelo menos competitivo com o modelo Llama-3-70B em capacidades básicas
- Como, neste modelo, as receitas de pré-treinamento e pós-treinamento não foram alteradas drasticamente, o ganho de desempenho em relação ao 72B parece vir do aumento no tamanho do modelo
Resultados da avaliação do modelo de chat
- O modelo de chat foi testado no MT-Bench e no AlpacaEval 2.0
- Em comparação com o modelo 72B divulgado anteriormente, o 110B apresentou desempenho significativamente superior nos dois benchmarks
- A melhora consistente nas avaliações indica que um modelo de linguagem base maior e mais forte pode levar a um modelo de chat melhor, mesmo sem grandes mudanças na receita de pós-treinamento
Desenvolvendo com o Qwen1.5-110B
- Para entender como usá-lo com Transformers, vLLM, llama.cpp, Ollama, LMStudio, SkyPilot, Axolotl e LLaMA-Factory, entre outros, é recomendável ler o blog do Qwen1.5
Conclusão
- O Qwen1.5-110B é o maior modelo da série Qwen1.5 e o primeiro da série com mais de 100 bilhões de parâmetros
- Ele apresenta desempenho competitivo com o Llama-3-70B, um modelo SOTA divulgado recentemente, e é muito superior ao modelo 72B
- Isso indica que ainda há muito potencial em escalar o tamanho do modelo para obter melhor desempenho
- O lançamento do Llama-3 mostra a importância de escalar os dados a um nível extremamente grande, mas acredita-se que, em divulgações futuras, será possível expandir tanto os dados quanto o tamanho do modelo para obter o melhor dos dois mundos
1 comentários
Alibaba revela o modelo de IA open source QWEN