- A equipe da Mistral AI lançou o Mistral Small 3, um modelo de 24 bilhões de parâmetros, sob a licença Apache 2.0.
- O modelo pode competir com modelos maiores, como Llama 3.3 70B e Qwen 32B, e é uma boa alternativa a modelos proprietários como o GPT4o-mini.
- O Mistral Small 3 foi projetado com um tamanho adequado para implantação local, e seu menor número de camadas reduz o tempo de processamento.
- Apresenta mais de 81% de precisão no MMLU e latência de 150 tokens/s.
Desempenho
Avaliação humana
- Foram avaliados mais de 1.000 conjuntos de prompts de programação e gerais com uma empresa externa de avaliação.
- A preferência foi analisada comparando as respostas do Mistral Small 3 com as de outros modelos.
- Houve cuidado para garantir uma avaliação justa, e há confiança na validade dos benchmarks.
Desempenho em instruções
- O modelo ajustado para instruções apresenta desempenho competitivo em relação a modelos abertos com o triplo do tamanho e ao modelo GPT4o-mini.
- Registrou alta precisão em benchmarks de código, matemática, conhecimento geral e execução de instruções.
Desempenho de pré-treinamento
- O Mistral Small 3 é um modelo de 24B que oferece desempenho líder para seu porte e compete com modelos três vezes maiores, como o Llama 3.3 70B.
Casos de uso do Mistral Small 3
- Suporte conversacional com resposta rápida: entrega ótimo desempenho em cenários em que respostas rápidas e precisas são essenciais.
- Chamadas de função com baixa latência: pode lidar com execução rápida de funções em fluxos de trabalho automatizados.
- Criação de especialistas em áreas específicas: pode ser refinado para domínios específicos, gerando especialistas altamente precisos.
- Inferência local: útil para pessoas ou organizações que lidam com informações sensíveis.
Uso do Mistral Small 3 na sua stack de tecnologia preferida
- O Mistral Small 3 está disponível no la Plateforme como
mistral-small-latest ou mistral-small-2501.
- Em parceria com Hugging Face, Ollama, Kaggle, Together AI e Fireworks AI, o modelo é oferecido em várias plataformas.
Próximos passos
- O Mistral Small 3 complementa grandes modelos open source de raciocínio, como o DeepSeek, e pode servir como uma base sólida para fortalecer capacidades de raciocínio.
- Modelos menores e maiores serão lançados futuramente.
Modelos open source da Mistral
- A empresa planeja oferecer modelos de propósito geral sob a licença Apache 2.0.
- Os pesos do modelo podem ser baixados e implantados localmente, com liberdade para modificação e uso.
- Também serão disponibilizados por meio de API serverless, implantações on-premises e em VPC, além de plataforma de customização e orquestração.
1 comentários
Comentários do Hacker News
O modelo Mistral Small tem como objetivo ser o modelo ideal para rodar em notebooks com desempenho razoável, e está sendo comparado ao Llama 3.3 70B e ao Qwen 2.5 32B
Tom, da Epoch AI, está construindo uma infraestrutura para realizar avaliações de LLMs de forma sistemática e em grande escala
Está migrando para a licença Apache 2.0, deixando a licença não comercial para trás
Ao testar prompts de geração de código, apresentou desempenho semelhante ao qwen2.5-coder-32b
Os principais pontos desta versão são os seguintes
Com os lançamentos recentes de modelos MoE, 24 GB de VRAM parecem insuficientes
O modelo Mistral Small respondeu corretamente à pergunta sobre o primeiro álbum de Mary J Blige
Há curiosidade sobre o motivo de usar modelos pequenos
Há uma opinião de que seria bom incluir a quantidade de parâmetros no nome do modelo