- "High-quality Sparse Mixture of Experts Model (SMoE, modelo esparso de mistura de especialistas de alta qualidade)"
- Supera o Llama 2 70B na maioria dos benchmarks e oferece inferência 6 vezes mais rápida
- Apresenta desempenho semelhante ou melhor que o GPT 3.5 na maioria dos benchmarks padrão
- É o modelo open-weight mais poderoso com licença permissiva e o melhor em custo/desempenho
- Suporte a contexto de 32k tokens
- Processa inglês/francês/italiano/alemão/espanhol
- Mostra forte desempenho em geração de código
- Pode ser ajustado finamente como modelo de seguimento de instruções, tendo alcançado 8,3 no MT-Bench
- MMLU 70.6% (Llama 2 70B 69.9%, GPT 3.5 70.0%)
Expandindo os limites dos modelos abertos com arquitetura esparsa
- O Mixtral é uma rede esparsa de especialistas e um modelo decoder-only
- O bloco feedforward escolhe entre 8 grupos distintos de parâmetros; em cada camada e para cada token, uma rede roteadora seleciona dois grupos de especialistas e combina suas saídas
- Essa técnica permite aumentar o número de parâmetros do modelo enquanto controla custo e latência; o Mixtral tem 46.7B de parâmetros no total, mas usa apenas 12.9B de parâmetros por token
Desempenho
- O Mixtral apresenta desempenho equivalente ou superior na maioria dos benchmarks em comparação com os modelos Llama 2 e o modelo base GPT3.5.
- Em comparação com o Llama 2 70B, o Mixtral fornece respostas mais verídicas (73.9% contra 50.2% no benchmark TruthfulQA) e mostra menos viés no benchmark BBQ.
- O Mixtral lida com proficiência com francês, alemão, espanhol, italiano e inglês.
Modelo alinhado a instruções
- O Mixtral 8x7B Instruct passou por ajuste fino supervisionado e otimização direta de preferências (DPO) para otimizar o desempenho no seguimento de instruções.
- Alcançou 8.30 no MT-Bench, tornando-se o melhor modelo open source com desempenho comparável ao GPT3.5.
Implantação com a stack open source de implantação do Mixtral
- Foram enviadas mudanças ao projeto vLLM para que a comunidade possa executar o Mixtral com uma stack totalmente open source.
- Atualmente, a Mistral AI está usando o Mixtral 8x7B por trás do endpoint mistral-small, disponível em beta
- É possível se cadastrar para ter acesso antecipado a todos os endpoints de geração e embeddings
2 comentários
Como também foi mencionado nos comentários abaixo, quando vi 8x7B pela primeira vez, pensei: então o número total de parâmetros é 56B?
Opiniões no Hacker News
Opinião de Andrej Karpathy:
Disponibilidade do modelo no HuggingFace:
Pedido de explicação para engenheiros de software:
Reação ao tamanho do Mixtral 8x7B:
Perspectiva sobre o futuro da IA:
Pergunta sobre o funcionamento, vantagens e desvantagens do MoE:
Confusão sobre os parâmetros do modelo:
Explicação sobre a abordagem da Mistral:
Capacidades linguísticas do Mixtral 8x7B:
Pedido de informações sobre o modelo e os pesos:
Pergunta sobre competitividade no mercado: