12 pontos por GN⁺ 2023-12-12 | 2 comentários | Compartilhar no WhatsApp
  • "High-quality Sparse Mixture of Experts Model (SMoE, modelo esparso de mistura de especialistas de alta qualidade)"
  • Supera o Llama 2 70B na maioria dos benchmarks e oferece inferência 6 vezes mais rápida
  • Apresenta desempenho semelhante ou melhor que o GPT 3.5 na maioria dos benchmarks padrão
  • É o modelo open-weight mais poderoso com licença permissiva e o melhor em custo/desempenho
  • Suporte a contexto de 32k tokens
  • Processa inglês/francês/italiano/alemão/espanhol
  • Mostra forte desempenho em geração de código
  • Pode ser ajustado finamente como modelo de seguimento de instruções, tendo alcançado 8,3 no MT-Bench
  • MMLU 70.6% (Llama 2 70B 69.9%, GPT 3.5 70.0%)

Expandindo os limites dos modelos abertos com arquitetura esparsa

  • O Mixtral é uma rede esparsa de especialistas e um modelo decoder-only
  • O bloco feedforward escolhe entre 8 grupos distintos de parâmetros; em cada camada e para cada token, uma rede roteadora seleciona dois grupos de especialistas e combina suas saídas
  • Essa técnica permite aumentar o número de parâmetros do modelo enquanto controla custo e latência; o Mixtral tem 46.7B de parâmetros no total, mas usa apenas 12.9B de parâmetros por token

Desempenho

  • O Mixtral apresenta desempenho equivalente ou superior na maioria dos benchmarks em comparação com os modelos Llama 2 e o modelo base GPT3.5.
  • Em comparação com o Llama 2 70B, o Mixtral fornece respostas mais verídicas (73.9% contra 50.2% no benchmark TruthfulQA) e mostra menos viés no benchmark BBQ.
  • O Mixtral lida com proficiência com francês, alemão, espanhol, italiano e inglês.

Modelo alinhado a instruções

  • O Mixtral 8x7B Instruct passou por ajuste fino supervisionado e otimização direta de preferências (DPO) para otimizar o desempenho no seguimento de instruções.
  • Alcançou 8.30 no MT-Bench, tornando-se o melhor modelo open source com desempenho comparável ao GPT3.5.

Implantação com a stack open source de implantação do Mixtral

  • Foram enviadas mudanças ao projeto vLLM para que a comunidade possa executar o Mixtral com uma stack totalmente open source.
  • Atualmente, a Mistral AI está usando o Mixtral 8x7B por trás do endpoint mistral-small, disponível em beta
  • É possível se cadastrar para ter acesso antecipado a todos os endpoints de geração e embeddings

2 comentários

 
cosine20 2023-12-12

Como também foi mencionado nos comentários abaixo, quando vi 8x7B pela primeira vez, pensei: então o número total de parâmetros é 56B?

 
GN⁺ 2023-12-12
Opiniões no Hacker News
  • Opinião de Andrej Karpathy:

    • Publicação oficial sobre o Mixtral 8x7B e divulgação do código de inferência do vLLM
    • A explicação do MoE (Mixture of Experts) da HuggingFace é útil
    • Alcança o desempenho de um modelo 70B com a velocidade de inferência de um modelo denso de 12,9B
    • Reação positiva ao uso do termo "open weights"
    • Aponta que o nome "8x7B" pode induzir ao erro
    • Menciona a confusão sobre a forma como cada token e camada escolhe 2 especialistas entre 8
    • Apresentação do modelo Mistral-medium
  • Disponibilidade do modelo no HuggingFace:

    • Modelo Mixtral disponível via Mistralai e TheBloke
  • Pedido de explicação para engenheiros de software:

    • É necessário entender como funciona a mistura de especialistas
  • Reação ao tamanho do Mixtral 8x7B:

    • Demonstra interesse pelo fato de um modelo de 4,5 bilhões de parâmetros ser considerado "small"
  • Perspectiva sobre o futuro da IA:

    • Visão positiva de que o MoE será o futuro da IA
  • Pergunta sobre o funcionamento, vantagens e desvantagens do MoE:

    • É necessária uma explicação sobre quais vantagens o MoE oferece em relação aos modelos tradicionais
  • Confusão sobre os parâmetros do modelo:

    • Expressa confusão sobre o nome "8x7B", o número real de parâmetros e os parâmetros usados na geração de tokens
  • Explicação sobre a abordagem da Mistral:

    • O CEO menciona que a Mistral busca acesso livre sem censurar o modelo
  • Capacidades linguísticas do Mixtral 8x7B:

    • Lida com proficiência com francês, alemão, espanhol, italiano e inglês
  • Pedido de informações sobre o modelo e os pesos:

    • Solicitação de links para o modelo e os pesos
  • Pergunta sobre competitividade no mercado:

    • Embora tenha um modelo superior ao GPT 3.5, questiona quais oportunidades existem para competir com OpenAI/Google e pede uma perspectiva sobre o futuro