1 pontos por GN⁺ 2024-01-10 | 1 comentários | Compartilhar no WhatsApp

Introdução ao Mixtral of Experts

  • O Mixtral 8x7B é um modelo de linguagem Sparse Mixture of Experts (SMoE).
  • O Mixtral tem a mesma arquitetura do Mistral 7B, mas cada camada é composta por 8 blocos feed-forward (especialistas).
  • Para cada token, a rede roteadora seleciona dois especialistas para processar o estado atual e combina suas saídas.

Desempenho e benchmarks

  • Cada token pode acessar 47B parâmetros, mas durante a inferência usa apenas 13B parâmetros ativos.
  • O Mixtral foi treinado com um tamanho de contexto de 32k tokens e supera ou iguala o Llama 2 70B e o GPT-3.5 em todos os benchmarks avaliados.
  • Em especial, supera amplamente o Llama 2 70B em matemática, geração de código e benchmarks multilíngues.

Fine-tuning do modelo e licença

  • O modelo ajustado por fine-tuning para seguir instruções, Mixtral 8x7B - Instruct, supera o GPT-3.5 Turbo, Claude-2.1, Gemini Pro e o modelo Llama 2 70B - chat em benchmarks humanos.
  • Tanto o modelo base quanto o modelo instruct foram lançados sob a licença Apache 2.0.

Opinião do GN⁺

  • O Mixtral 8x7B é avaliado como tendo desempenho excepcional em comparação com modelos de linguagem existentes. Isso é um indicador importante do avanço na área de processamento de linguagem por inteligência artificial.
  • Em especial, a melhora de desempenho em vários idiomas e na geração de código pode ter impacto positivo em diversas aplicações, como tradução automática e programação automatizada.
  • O fato de ter sido lançado sob a licença Apache 2.0 oferece a pesquisadores e desenvolvedores a oportunidade de usar e aprimorar livremente esse modelo, contribuindo para o crescimento da comunidade open source de IA.

1 comentários

 
GN⁺ 2024-01-10
Comentários do Hacker News
  • Discussão sobre o modelo Mixtral 8x7B

    • O modelo Mixtral 8x7B está em uso há cerca de um mês e apresenta desempenho excelente com tamanho de 13B.
    • Ele ocupa posições altas em relação aos modelos concorrentes e é muito útil no uso diário em Macs para chat, entrada de código e outras tarefas.
    • Foi levantada a possibilidade de que os 8 especialistas originados do Mistral 7B tenham evoluído cada um em direções diferentes.
    • No caso da Mistral, ao que parece, treinar a rede 8x7B não exigiu tanto esforço quanto treinar 8 redes 7B separadas.
    • A área de LLMs ainda passa por inovação rápida, com o surgimento de novas pesquisas como Calm e modelos experimentais como o Goliath-120b.
    • Espera-se que, no primeiro semestre de 2024, surjam modelos com bom desempenho em hardware de consumo.
  • Desempenho do modelo e viabilidade de uso

    • Esse modelo usa 13b de parâmetros, roda com fluidez em alta qualidade em uma 3090, supera o GPT-3.5 no Humaneval e oferece suporte a contexto de 32k.
    • A 3090 é um hardware de nível consumidor comumente usado entre gamers.
    • Há expectativa de que desenvolvedores de jogos comecem a usar o Mixtral dentro dos jogos.
  • Como usar o modelo

    • O modelo Mixtral foi disponibilizado como Llamafile por Mozilla/jart, e os usuários podem baixar esse arquivo e executá-lo.
  • Uso em Mac Silicon

    • Usuários de Mac Silicon podem baixar o Mixtral por meio do ollama.ai e construir uma interface web usando o ollama-webui.
  • Notícias e discussões relacionadas

    • São fornecidos links para notícias e discussões recentes sobre o modelo Mixtral.
  • Desempenho do modelo em benchmarks

    • O Mixtral supera com folga o modelo Llama 2 70B em benchmarks de matemática, geração de código e multilinguismo.
    • Há interesse no desempenho na área de matemática, que aparentemente ainda não foi resolvida de forma eficaz.
  • Opiniões críticas sobre o artigo

    • Há críticas de que artigos sobre LLMs carecem de detalhes.
    • Aponta-se que faltam explicações sobre como os especialistas foram treinados e quais conjuntos de dados foram usados.
  • Conteúdo da entrevista com o fundador da Mistral

    • Em uma entrevista no podcast da A16Z, o fundador da Mistral mencionou que possui vários modelos internos entre o nível do chatGPT e o do GPT4.
    • Com base nos lançamentos de alta qualidade até agora, expressa-se expectativa em relação aos LLMs de código aberto.
  • Descrição de cada modelo especialista

    • O artigo não explica se um dos 8 modelos é especializado em tradução multilíngue e se outro é especializado em programação.
  • Expectativa pela divulgação de modelos multimodais

    • O avanço dos modelos que lidam apenas com texto foi surpreendente, mas há curiosidade sobre se o comportamento "emergente" do GPT-4 não se deve ao treinamento multimodal.
    • Existe interesse em saber se modelos pequenos com multimodalidade incluída mostrarão um salto semelhante.