Mistral AI revela o modelo Mixtral 8x7B, superior ao Llama 2 70B

(mistral.ai)

12 pontos por GN⁺ 2023-12-12 | 2 comentários | Compartilhar no WhatsApp

"High-quality Sparse Mixture of Experts Model (SMoE, modelo esparso de mistura de especialistas de alta qualidade)"
Supera o Llama 2 70B na maioria dos benchmarks e oferece inferência 6 vezes mais rápida
Apresenta desempenho semelhante ou melhor que o GPT 3.5 na maioria dos benchmarks padrão
É o modelo open-weight mais poderoso com licença permissiva e o melhor em custo/desempenho
Suporte a contexto de 32k tokens
Processa inglês/francês/italiano/alemão/espanhol
Mostra forte desempenho em geração de código
Pode ser ajustado finamente como modelo de seguimento de instruções, tendo alcançado 8,3 no MT-Bench
MMLU 70.6% (Llama 2 70B 69.9%, GPT 3.5 70.0%)

Expandindo os limites dos modelos abertos com arquitetura esparsa

O Mixtral é uma rede esparsa de especialistas e um modelo decoder-only
O bloco feedforward escolhe entre 8 grupos distintos de parâmetros; em cada camada e para cada token, uma rede roteadora seleciona dois grupos de especialistas e combina suas saídas
Essa técnica permite aumentar o número de parâmetros do modelo enquanto controla custo e latência; o Mixtral tem 46.7B de parâmetros no total, mas usa apenas 12.9B de parâmetros por token

Desempenho

O Mixtral apresenta desempenho equivalente ou superior na maioria dos benchmarks em comparação com os modelos Llama 2 e o modelo base GPT3.5.
Em comparação com o Llama 2 70B, o Mixtral fornece respostas mais verídicas (73.9% contra 50.2% no benchmark TruthfulQA) e mostra menos viés no benchmark BBQ.
O Mixtral lida com proficiência com francês, alemão, espanhol, italiano e inglês.

Modelo alinhado a instruções

O Mixtral 8x7B Instruct passou por ajuste fino supervisionado e otimização direta de preferências (DPO) para otimizar o desempenho no seguimento de instruções.
Alcançou 8.30 no MT-Bench, tornando-se o melhor modelo open source com desempenho comparável ao GPT3.5.

Implantação com a stack open source de implantação do Mixtral

Foram enviadas mudanças ao projeto vLLM para que a comunidade possa executar o Mixtral com uma stack totalmente open source.
Atualmente, a Mistral AI está usando o Mixtral 8x7B por trás do endpoint mistral-small, disponível em beta
É possível se cadastrar para ter acesso antecipado a todos os endpoints de geração e embeddings

2 comentários

cosine20 2023-12-12

Como também foi mencionado nos comentários abaixo, quando vi 8x7B pela primeira vez, pensei: então o número total de parâmetros é 56B?

GN⁺ 2023-12-12

Opiniões no Hacker News

Opinião de Andrej Karpathy:
- Publicação oficial sobre o Mixtral 8x7B e divulgação do código de inferência do vLLM
- A explicação do MoE (Mixture of Experts) da HuggingFace é útil
- Alcança o desempenho de um modelo 70B com a velocidade de inferência de um modelo denso de 12,9B
- Reação positiva ao uso do termo "open weights"
- Aponta que o nome "8x7B" pode induzir ao erro
- Menciona a confusão sobre a forma como cada token e camada escolhe 2 especialistas entre 8
- Apresentação do modelo Mistral-medium
Disponibilidade do modelo no HuggingFace:
- Modelo Mixtral disponível via Mistralai e TheBloke
Pedido de explicação para engenheiros de software:
- É necessário entender como funciona a mistura de especialistas
Reação ao tamanho do Mixtral 8x7B:
- Demonstra interesse pelo fato de um modelo de 4,5 bilhões de parâmetros ser considerado "small"
Perspectiva sobre o futuro da IA:
- Visão positiva de que o MoE será o futuro da IA
Pergunta sobre o funcionamento, vantagens e desvantagens do MoE:
- É necessária uma explicação sobre quais vantagens o MoE oferece em relação aos modelos tradicionais
Confusão sobre os parâmetros do modelo:
- Expressa confusão sobre o nome "8x7B", o número real de parâmetros e os parâmetros usados na geração de tokens
Explicação sobre a abordagem da Mistral:
- O CEO menciona que a Mistral busca acesso livre sem censurar o modelo
Capacidades linguísticas do Mixtral 8x7B:
- Lida com proficiência com francês, alemão, espanhol, italiano e inglês
Pedido de informações sobre o modelo e os pesos:
- Solicitação de links para o modelo e os pesos
Pergunta sobre competitividade no mercado:
- Embora tenha um modelo superior ao GPT 3.5, questiona quais oportunidades existem para competir com OpenAI/Google e pede uma perspectiva sobre o futuro