- "Mais barato, melhor, mais rápido e mais poderoso"
- Um modelo Sparse Mixture-of-Experts (SMoE) que usa apenas 39B de parâmetros ativos de um total de 141B de parâmetros, oferecendo excelente eficiência de custo em relação ao tamanho do modelo
Principais características do Mixtral 8x22B
- Fluente em inglês, francês, italiano, alemão e espanhol
- Excelente em matemática e programação
- Suporte nativo a chamada de funções e, junto com o modo de saída restrita implementado na la Plateforme, permite o desenvolvimento de aplicações em grande escala e a modernização da stack tecnológica
- A janela de contexto de 64K tokens permite recuperação precisa de informações em grandes volumes de documentos
Um modelo realmente aberto
- A Mistral AI acredita no poder da abertura e da ampla distribuição para promover inovação e colaboração em IA
- O Mixtral 8x22B é distribuído sob a licença open source mais permissiva, Apache 2.0, permitindo que qualquer pessoa use o modelo sem restrições
Máxima eficiência
- A Mistral AI constrói modelos que oferecem o melhor desempenho por custo para cada tamanho de modelo, entregando a melhor relação entre desempenho e custo entre os modelos disponibilizados pela comunidade
- O Mixtral 8x22B é uma extensão natural da família de modelos abertos da Mistral AI. Graças ao padrão de ativação esparsa, ele é mais rápido que modelos dense de 70B e oferece mais capacidades do que outros modelos open weight distribuídos sob licenças permissivas ou restritivas. A disponibilidade do modelo base também o torna uma base muito adequada para casos de uso com fine-tuning
Desempenho aberto sem comparação
Raciocínio e conhecimento
- O Mixtral 8x22B é otimizado para raciocínio
- Apresenta o melhor desempenho entre os principais modelos abertos de LLM em benchmarks de senso comum, raciocínio e conhecimento (MMLU, HellaSwag, Wino Grande, Arc Challenge, TriviaQA, NaturalQS)
Capacidades multilíngues
- O Mixtral 8x22B possui capacidades multilíngues nativas
- Supera com ampla margem o LLaMA 2 70B nos benchmarks HellaSwag, Arc Challenge e MMLU em francês, alemão, espanhol e italiano
Matemática e programação
- O Mixtral 8x22B mostra o melhor desempenho em tarefas de programação e matemática em comparação com outros modelos abertos
- Apresenta o melhor desempenho entre os principais modelos abertos em benchmarks de programação e matemática (HumanEval pass@1, MBPP pass@1, GSM8K maj@1/8, Math maj@4)
- A versão Instruct do Mixtral 8x22B anunciada hoje tem desempenho ainda melhor em matemática, registrando 90,8% no GSM8K maj@8 e 44,6% no Math maj@4
Opinião do GN⁺
- O Mixtral 8x22B é o maior entre os modelos abertos da Mistral e, ao mesmo tempo, um modelo muito eficiente em custo-benefício graças ao uso de sparsity. Isso merece atenção como uma das direções de evolução dos modelos LLM open source
- O excelente desempenho multilíngue e as capacidades de matemática/programação em relação ao tamanho do modelo parecem ser os principais diferenciais do Mixtral 8x22B. No entanto, no caso de idiomas além do inglês, a cobertura de idiomas suportados ainda é relativamente estreita, e, em comparação com LLMs mais recentes como o GPT-4, suas capacidades de programação e matemática ainda ficam atrás
- O uso da licença Apache 2.0, que permite utilização livre por qualquer pessoa, é uma vantagem, mas também parece aumentar o potencial de uso indevido. Esforços maiores da comunidade parecem necessários para o desenvolvimento e uso responsáveis de modelos de IA open source
- A possibilidade de desenvolver aplicações com o modelo Mixtral e modernizar a stack tecnológica é atraente, mas ainda parecem existir limitações técnicas e de custo para aplicá-lo em serviços de grande escala. Ainda assim, espera-se que aumentem os casos de inovação baseados em open source
- Na Coreia, KakaoBrain, NAVER e LG AI Research também estão desenvolvendo seus próprios LLMs. Em aspectos específicos do mercado coreano, como desempenho em processamento de coreano, esses modelos podem ter competitividade
6 comentários
Modelo base Mixtral 8x22B: https://huggingface.co/mistralai/Mixtral-8x22B-v0.1
Modelo Mixtral 8x22B Instruct: https://huggingface.co/mistralai/Mixtral-8x22B-Instruct-v0.1
Parece que ele já foi registrado para uso no Azure AI Studio. (mistralai-Mixtral-8x7B-v01, mistral-community-Mixtral-8x22B-v0-1)
Polyglot não foi criado pela Kakao Brain, e sim pela Tunib AI e pela EleutherAI. Parece que houve uma alucinação mesmo TT
Ah, é verdade. Já corrigi isso. Obrigado.
Quando você pede para o Claude Opus dar uma opinião, às vezes ele inclui comentários domésticos assim. Interessante rs
Opiniões do Hacker News
Resumo:
LMStudio, e acha inconveniente usar oOllamavia CLIMistrale o desempenho