Mistral AI revela o novo modelo aberto Mixtral 8x22B

(mistral.ai)

9 pontos por GN⁺ 2024-04-18 | 6 comentários | Compartilhar no WhatsApp

"Mais barato, melhor, mais rápido e mais poderoso"
Um modelo Sparse Mixture-of-Experts (SMoE) que usa apenas 39B de parâmetros ativos de um total de 141B de parâmetros, oferecendo excelente eficiência de custo em relação ao tamanho do modelo

Principais características do Mixtral 8x22B

Fluente em inglês, francês, italiano, alemão e espanhol
Excelente em matemática e programação
Suporte nativo a chamada de funções e, junto com o modo de saída restrita implementado na la Plateforme, permite o desenvolvimento de aplicações em grande escala e a modernização da stack tecnológica
A janela de contexto de 64K tokens permite recuperação precisa de informações em grandes volumes de documentos

A Mistral AI acredita no poder da abertura e da ampla distribuição para promover inovação e colaboração em IA
O Mixtral 8x22B é distribuído sob a licença open source mais permissiva, Apache 2.0, permitindo que qualquer pessoa use o modelo sem restrições

A Mistral AI constrói modelos que oferecem o melhor desempenho por custo para cada tamanho de modelo, entregando a melhor relação entre desempenho e custo entre os modelos disponibilizados pela comunidade
O Mixtral 8x22B é uma extensão natural da família de modelos abertos da Mistral AI. Graças ao padrão de ativação esparsa, ele é mais rápido que modelos dense de 70B e oferece mais capacidades do que outros modelos open weight distribuídos sob licenças permissivas ou restritivas. A disponibilidade do modelo base também o torna uma base muito adequada para casos de uso com fine-tuning

O Mixtral 8x22B é otimizado para raciocínio
Apresenta o melhor desempenho entre os principais modelos abertos de LLM em benchmarks de senso comum, raciocínio e conhecimento (MMLU, HellaSwag, Wino Grande, Arc Challenge, TriviaQA, NaturalQS)

O Mixtral 8x22B possui capacidades multilíngues nativas
Supera com ampla margem o LLaMA 2 70B nos benchmarks HellaSwag, Arc Challenge e MMLU em francês, alemão, espanhol e italiano

O Mixtral 8x22B mostra o melhor desempenho em tarefas de programação e matemática em comparação com outros modelos abertos
Apresenta o melhor desempenho entre os principais modelos abertos em benchmarks de programação e matemática (HumanEval pass@1, MBPP pass@1, GSM8K maj@1/8, Math maj@4)
A versão Instruct do Mixtral 8x22B anunciada hoje tem desempenho ainda melhor em matemática, registrando 90,8% no GSM8K maj@8 e 44,6% no Math maj@4

O Mixtral 8x22B é o maior entre os modelos abertos da Mistral e, ao mesmo tempo, um modelo muito eficiente em custo-benefício graças ao uso de sparsity. Isso merece atenção como uma das direções de evolução dos modelos LLM open source
O excelente desempenho multilíngue e as capacidades de matemática/programação em relação ao tamanho do modelo parecem ser os principais diferenciais do Mixtral 8x22B. No entanto, no caso de idiomas além do inglês, a cobertura de idiomas suportados ainda é relativamente estreita, e, em comparação com LLMs mais recentes como o GPT-4, suas capacidades de programação e matemática ainda ficam atrás
O uso da licença Apache 2.0, que permite utilização livre por qualquer pessoa, é uma vantagem, mas também parece aumentar o potencial de uso indevido. Esforços maiores da comunidade parecem necessários para o desenvolvimento e uso responsáveis de modelos de IA open source
A possibilidade de desenvolver aplicações com o modelo Mixtral e modernizar a stack tecnológica é atraente, mas ainda parecem existir limitações técnicas e de custo para aplicá-lo em serviços de grande escala. Ainda assim, espera-se que aumentem os casos de inovação baseados em open source
Na Coreia, KakaoBrain, NAVER e LG AI Research também estão desenvolvendo seus próprios LLMs. Em aspectos específicos do mercado coreano, como desempenho em processamento de coreano, esses modelos podem ter competitividade

ninebow 2024-04-19

dormis 2024-04-19

Parece que ele já foi registrado para uso no Azure AI Studio. (mistralai-Mixtral-8x7B-v01, mistral-community-Mixtral-8x22B-v0-1)

vkehfdl1 2024-04-18

Polyglot não foi criado pela Kakao Brain, e sim pela Tunib AI e pela EleutherAI. Parece que houve uma alucinação mesmo TT

xguru 2024-04-19

Ah, é verdade. Já corrigi isso. Obrigado.

xguru 2024-04-18

Quando você pede para o Claude Opus dar uma opinião, às vezes ele inclui comentários domésticos assim. Interessante rs

GN⁺ 2024-04-18

Resumo:

Colocaram uma pergunta sobre impostos no ChatGPT e apareceu um anúncio de serviço de redação de ensaios
Pedido de uma explicação simples do conceito de "Mixture-of-Experts"
- Entende a ideia de haver especialistas subordinados, mas quer saber como cada área de especialização é determinada durante o treinamento
Frustração com o tamanho da janela de contexto de 64K tokens
- O fato de não alcançar os 128K do GPT-4 Turbo pode virar motivo de piada no futuro
- A expectativa é que no futuro isso aumente para algo na escala de 1 trilhão de tokens
Pergunta sobre a melhor forma de rodar um LLM em um MacBook Pro
- Não gosta da interface do LMStudio, e acha inconveniente usar o Ollama via CLI
- Prefere uma solução como a da OpenAI, com ajustes finos de configuração e edição fácil de prompts
Limitações dos modelos abertos
- Sem acesso aos dados de treinamento, não é possível replicar o modelo
Resultados de comparação entre a série Mistral e o desempenho
Vantagem de operar uma startup de IA
- Sempre que um novo modelo de grande porte é lançado, o produto melhora automaticamente
Pergunta se a versão "non-instructed" de um LLM é uma versão sem orientação da versão "instructed"
Com os LLMs, a importância da RAM voltou a ganhar destaque
- Arrependimento por não ter colocado mais 32 GB de RAM no MacBook Pro
Expectativa em relação a modelos quantizados
- Esperança por um modelo de 3 bits que possa rodar em um MacBook Pro com 64 GB