Introdução ao Mixtral of Experts
- O Mixtral 8x7B é um modelo de linguagem Sparse Mixture of Experts (SMoE).
- O Mixtral tem a mesma arquitetura do Mistral 7B, mas cada camada é composta por 8 blocos feed-forward (especialistas).
- Para cada token, a rede roteadora seleciona dois especialistas para processar o estado atual e combina suas saídas.
Desempenho e benchmarks
- Cada token pode acessar 47B parâmetros, mas durante a inferência usa apenas 13B parâmetros ativos.
- O Mixtral foi treinado com um tamanho de contexto de 32k tokens e supera ou iguala o Llama 2 70B e o GPT-3.5 em todos os benchmarks avaliados.
- Em especial, supera amplamente o Llama 2 70B em matemática, geração de código e benchmarks multilíngues.
Fine-tuning do modelo e licença
- O modelo ajustado por fine-tuning para seguir instruções, Mixtral 8x7B - Instruct, supera o GPT-3.5 Turbo, Claude-2.1, Gemini Pro e o modelo Llama 2 70B - chat em benchmarks humanos.
- Tanto o modelo base quanto o modelo instruct foram lançados sob a licença Apache 2.0.
Opinião do GN⁺
- O Mixtral 8x7B é avaliado como tendo desempenho excepcional em comparação com modelos de linguagem existentes. Isso é um indicador importante do avanço na área de processamento de linguagem por inteligência artificial.
- Em especial, a melhora de desempenho em vários idiomas e na geração de código pode ter impacto positivo em diversas aplicações, como tradução automática e programação automatizada.
- O fato de ter sido lançado sob a licença Apache 2.0 oferece a pesquisadores e desenvolvedores a oportunidade de usar e aprimorar livremente esse modelo, contribuindo para o crescimento da comunidade open source de IA.
1 comentários
Comentários do Hacker News
Discussão sobre o modelo Mixtral 8x7B
Desempenho do modelo e viabilidade de uso
Como usar o modelo
Uso em Mac Silicon
Notícias e discussões relacionadas
Desempenho do modelo em benchmarks
Opiniões críticas sobre o artigo
Conteúdo da entrevista com o fundador da Mistral
Descrição de cada modelo especialista
Expectativa pela divulgação de modelos multimodais