5 pontos por xguru 2024-04-28 | 1 comentários | Compartilhar no WhatsApp
  • A comunidade open source vem lançando recentemente modelos de grande porte com mais de 100 bilhões de parâmetros, mostrando desempenho impressionante em benchmarks e na área de chatbots
  • A Alibaba também apresentou o Qwen1.5-110B, o primeiro modelo 100B+ da série Qwen1.5
  • Na avaliação do modelo base, ele alcançou desempenho comparável ao Meta-Llama3-70B e mostrou excelente desempenho em avaliações de chat, incluindo MT-Bench e AlpacaEval 2.0

Características do modelo Qwen1.5-110B

  • O Qwen1.5-110B é semelhante aos outros modelos Qwen1.5 e foi construído com a mesma arquitetura de decodificador Transformer
  • É composto com Grouped Query Attention (GQA), o que o torna eficiente para serving do modelo
  • Suporta comprimento de contexto de 32K tokens e é um modelo multilíngue com suporte a diversos idiomas, incluindo inglês, chinês, francês, espanhol, alemão, russo, coreano, japonês, vietnamita e árabe

Resultados da avaliação do modelo de linguagem base

  • Foi comparado por meio de uma série de avaliações do modelo de linguagem base com os recentes modelos de linguagem SOTA Meta-Llama3-70B e Mixtral-8x22B
  • Segundo os resultados, o novo modelo 110B é pelo menos competitivo com o modelo Llama-3-70B em capacidades básicas
  • Como, neste modelo, as receitas de pré-treinamento e pós-treinamento não foram alteradas drasticamente, o ganho de desempenho em relação ao 72B parece vir do aumento no tamanho do modelo

Resultados da avaliação do modelo de chat

  • O modelo de chat foi testado no MT-Bench e no AlpacaEval 2.0
  • Em comparação com o modelo 72B divulgado anteriormente, o 110B apresentou desempenho significativamente superior nos dois benchmarks
  • A melhora consistente nas avaliações indica que um modelo de linguagem base maior e mais forte pode levar a um modelo de chat melhor, mesmo sem grandes mudanças na receita de pós-treinamento

Desenvolvendo com o Qwen1.5-110B

  • Para entender como usá-lo com Transformers, vLLM, llama.cpp, Ollama, LMStudio, SkyPilot, Axolotl e LLaMA-Factory, entre outros, é recomendável ler o blog do Qwen1.5

Conclusão

  • O Qwen1.5-110B é o maior modelo da série Qwen1.5 e o primeiro da série com mais de 100 bilhões de parâmetros
  • Ele apresenta desempenho competitivo com o Llama-3-70B, um modelo SOTA divulgado recentemente, e é muito superior ao modelo 72B
  • Isso indica que ainda há muito potencial em escalar o tamanho do modelo para obter melhor desempenho
  • O lançamento do Llama-3 mostra a importância de escalar os dados a um nível extremamente grande, mas acredita-se que, em divulgações futuras, será possível expandir tanto os dados quanto o tamanho do modelo para obter o melhor dos dois mundos