Qwen1.5-110B: o primeiro modelo 100B+ da série open source de LLMs Qwen1.5 da Alibaba

xguru · 2024-04-28T09:30:03+09:00

A comunidade open source vem lançando recentemente modelos de grande porte com mais de 100 bilhões de parâmetros, mostrando desempenho impressionante em benchmarks e na área de chatbots A Alibaba também apresentou o Qwen1.5-110B, o primeiro modelo 100B+ da série Qwen1.5 Na avaliação do modelo base, ele alcançou desempenho comparável ao Meta-Llama3-70B e mostrou excelente desempenho em avaliações de chat, incluindo MT-Bench e AlpacaEval 2.0 Características do modelo Qwen1.5-110B O Qwen1.5-110B é semelhante aos outros modelos Qwen1.5 e foi construído com a mesma arquitetura de decodificador Transformer É composto com Grouped Query Attention (GQA), o que o torna eficiente para serving do modelo Suporta comprimento de contexto de 32K tokens e é um modelo multilíngue com suporte a diversos idiomas, incluindo inglês, chinês, francês, espanhol, alemão, russo, coreano, japonês, vietnamita e árabe Resultados da avaliação do modelo de linguagem base Foi comparado por meio de uma série de avaliações do modelo de linguagem base com os recentes modelos de linguagem SOTA Meta-Llama3-70B e Mixtral-8x22B Segundo os resultados, o novo modelo 110B é pelo menos competitivo com o modelo Llama-3-70B em capacidades básicas Como, neste modelo, as receitas de pré-treinamento e pós-treinamento não foram alteradas drasticamente, o ganho de desempenho em relação ao 72B parece vir do aumento no tamanho do modelo Resultados da avaliação do modelo de chat O modelo de chat foi testado no MT-Bench e no AlpacaEval 2.0 Em comparação com o modelo 72B divulgado anteriormente, o 110B apresentou desempenho significativamente superior nos dois benchmarks A melhora consistente nas avaliações indica que um modelo de linguagem base maior e mais forte pode levar a um modelo de chat melhor, mesmo sem grandes mudanças na receita de pós-treinamento Desenvolvendo com o Qwen1.5-110B Para entender como usá-lo com Transformers, vLLM, llama.cpp, Ollama, LMStudio, SkyPilot, Axolotl e LLaMA-Factory, entre outros, é recomendável ler o blog do Qwen1.5 Conclusão O Qwen1.5-110B é o maior modelo da série Qwen1.5 e o primeiro da série com mais de 100 bilhões de parâmetros Ele apresenta desempenho competitivo com o Llama-3-70B, um modelo SOTA divulgado recentemente, e é muito superior ao modelo 72B Isso indica que ainda há muito potencial em escalar o tamanho do modelo para obter melhor desempenho O lançamento do Llama-3 mostra a importância de escalar os dados a um nível extremamente grande, mas acredita-se que, em divulgações futuras, será possível expandir tanto os dados quanto o tamanho do modelo para obter o melhor dos dois mundos

(qwenlm.github.io)

5 pontos por xguru 2024-04-28 | 1 comentários | Compartilhar no WhatsApp

A comunidade open source vem lançando recentemente modelos de grande porte com mais de 100 bilhões de parâmetros, mostrando desempenho impressionante em benchmarks e na área de chatbots
A Alibaba também apresentou o Qwen1.5-110B, o primeiro modelo 100B+ da série Qwen1.5
Na avaliação do modelo base, ele alcançou desempenho comparável ao Meta-Llama3-70B e mostrou excelente desempenho em avaliações de chat, incluindo MT-Bench e AlpacaEval 2.0

Características do modelo Qwen1.5-110B

O Qwen1.5-110B é semelhante aos outros modelos Qwen1.5 e foi construído com a mesma arquitetura de decodificador Transformer
É composto com Grouped Query Attention (GQA), o que o torna eficiente para serving do modelo
Suporta comprimento de contexto de 32K tokens e é um modelo multilíngue com suporte a diversos idiomas, incluindo inglês, chinês, francês, espanhol, alemão, russo, coreano, japonês, vietnamita e árabe

Resultados da avaliação do modelo de linguagem base

Foi comparado por meio de uma série de avaliações do modelo de linguagem base com os recentes modelos de linguagem SOTA Meta-Llama3-70B e Mixtral-8x22B
Segundo os resultados, o novo modelo 110B é pelo menos competitivo com o modelo Llama-3-70B em capacidades básicas
Como, neste modelo, as receitas de pré-treinamento e pós-treinamento não foram alteradas drasticamente, o ganho de desempenho em relação ao 72B parece vir do aumento no tamanho do modelo

Resultados da avaliação do modelo de chat

O modelo de chat foi testado no MT-Bench e no AlpacaEval 2.0
Em comparação com o modelo 72B divulgado anteriormente, o 110B apresentou desempenho significativamente superior nos dois benchmarks
A melhora consistente nas avaliações indica que um modelo de linguagem base maior e mais forte pode levar a um modelo de chat melhor, mesmo sem grandes mudanças na receita de pós-treinamento

Desenvolvendo com o Qwen1.5-110B

Para entender como usá-lo com Transformers, vLLM, llama.cpp, Ollama, LMStudio, SkyPilot, Axolotl e LLaMA-Factory, entre outros, é recomendável ler o blog do Qwen1.5

Conclusão

O Qwen1.5-110B é o maior modelo da série Qwen1.5 e o primeiro da série com mais de 100 bilhões de parâmetros
Ele apresenta desempenho competitivo com o Llama-3-70B, um modelo SOTA divulgado recentemente, e é muito superior ao modelo 72B
Isso indica que ainda há muito potencial em escalar o tamanho do modelo para obter melhor desempenho
O lançamento do Llama-3 mostra a importância de escalar os dados a um nível extremamente grande, mas acredita-se que, em divulgações futuras, será possível expandir tanto os dados quanto o tamanho do modelo para obter o melhor dos dois mundos

1 comentários

xguru 2024-04-28

Alibaba revela o modelo de IA open source QWEN