Lançamento da família de modelos Mistral 3

(mistral.ai)

4 pontos por GN⁺ 2025-12-03 | 1 comentários | Compartilhar no WhatsApp

A série Mistral 3 é uma nova família de modelos de IA open source composta por modelos compactos de 3B, 8B e 14B e pelo Mistral Large 3, com 41B parâmetros ativos e 675B parâmetros totais
Todos os modelos foram divulgados com licença Apache 2.0, permitindo que desenvolvedores e empresas os utilizem e personalizem livremente
O Mistral Large 3 adota a arquitetura Mixture-of-Experts, foi treinado com 3.000 GPUs NVIDIA H200 e alcançou desempenho de ponta em diálogo multilíngue e compreensão de imagem
O Ministral 3 foi projetado para ambientes de edge, com excelente custo-benefício, e o modelo de reasoning marcou 85% de precisão no AIME ‘25
O Mistral 3 está disponível imediatamente em plataformas principais como Mistral AI Studio, Hugging Face, AWS, Azure, com foco em expandir o ecossistema de IA aberta

Visão geral do Mistral 3

O Mistral 3 é uma nova família de modelos da Mistral AI, composta por modelos densos compactos (3B, 8B e 14B) e pelo modelo esparso de maior porte Mistral Large 3
- O Mistral Large 3 possui uma estrutura Mixture-of-Experts (MoE) com 41B parâmetros ativos e 675B parâmetros totais
- Todos os modelos são disponibilizados sob licença Apache 2.0, permitindo uso pela comunidade open source
Os modelos são oferecidos em vários formatos de compressão, melhorando a acessibilidade por meio de inteligência distribuída
A família Ministral é avaliada como o modelo OSS com melhor custo-benefício

Mistral Large 3: principal modelo open-weight de ponta

O Mistral Large 3 é um modelo de pesos abertos, treinado do zero com 3.000 GPUs NVIDIA H200
- É o primeiro modelo Mixture-of-Experts após a série Mixtral, refletindo o avanço das técnicas de pré-treinamento da Mistral
Após o treinamento, apresentou desempenho de nível de ponta equivalente aos melhores modelos de pesos abertos em desempenho geral de prompts e alcançou ótimos resultados em compreensão de imagem e diálogo multilíngue fora do inglês
No leaderboard da LMArena, ficou em 2º no ranking de modelos OSS sem reasoning e 6º entre os modelos OSS no geral
As versões base e de ajuste instruct foram publicadas, e a versão reasoning será lançada em breve

Parceria com NVIDIA·vLLM·Red Hat

O Mistral Large 3 torna-se de fácil acesso para a comunidade open source por meio de colaboração com vLLM e Red Hat
- Fornece checkpoints em formato NVFP4 gerados com o llm-compressor
- Permitindo execução eficiente em sistemas Blackwell NVL72, 8×A100 e 8×H100 via vLLM
A colaboração com a NVIDIA adiciona suporte de inferência de baixa precisão em TensorRT-LLM, SGLang e outros
- Integrando kernels de Blackwell Attention e MoE, serving de prefill/decode separado e recurso de speculative decoding
A implantação otimizada também é suportada em ambientes de edge, incluindo DGX Spark, RTX PC e dispositivos Jetson

Ministral 3: modelo inteligente para edge

A série Ministral 3 para ambientes edge e locais é oferecida em três tamanhos: 3B, 8B e 14B
- Cada modelo foi disponibilizado em três variantes: base, instruct e reasoning
- Todas as variantes incluem recursos de compreensão de imagem e processamento multilíngue
É o modelo OSS com melhor custo-benefício, com o modelo instruct exibindo desempenho equivalente ou superior aos concorrentes enquanto reduz tokens em cerca de 1/10
O modelo reasoning se destaca em cenários orientados à precisão, com o modelo 14B alcançando 85% de precisão no AIME ‘25

Distribuição e acessibilidade

O Mistral 3 está disponível imediatamente nas plataformas a seguir
- Mistral AI Studio, Amazon Bedrock, Azure Foundry, Hugging Face, Modal, IBM WatsonX, OpenRouter, Fireworks, Unsloth AI, Together AI
- Em breve, também estará disponível em NVIDIA NIM e AWS SageMaker
Serviço de treinamento de modelos personalizados para empresas
- Incluindo suporte para tarefas específicas de domínio, melhoria de desempenho com datasets proprietários e implantação em ambientes especiais

Valor central do Mistral 3

Performance de ponta e acesso aberto: entrega performance em nível de modelos proprietários em formato open source
Suporte multimodal e multilíngue: entende texto, imagem e raciocínio em mais de 40 idiomas
Eficiência escalável: cobertura de 3B a 675B parâmetros, atendendo desde edge até enterprise
Adaptabilidade prática: aplicável a diferentes fluxos de trabalho, como programação, análise de documentos e uso de ferramentas

Próximos passos

Documentação e materiais técnicos dos modelos estão disponíveis em Mistral Docs e AI Governance Hub
Uso imediato da API via Hugging Face e pela plataforma Mistral AI
Canal de atendimento para treinamento e fine-tuning personalizados para empresas
Participação na comunidade disponível no Twitter/X, Discord e GitHub

Conclusão

O Mistral 3 busca expandir o ecossistema de IA aberta com base em transparência, acessibilidade e colaboração
Abre novas possibilidades em raciocínio, eficiência e uso prático, consolidando-se como um modelo open source de nova geração que “transforma compreensão em ação”

1 comentários

GN⁺ 2025-12-03

Opiniões do Hacker News

Eu uso grandes modelos de linguagem (LLM) no phrasing.app para organizar dados em um formato consistente
Há alguns meses mudei para o mistral-3-medium-0525, depois de sofrer com saídas estranhas frequentes do gpt-5
O Mistral é rápido, barato e segue instruções de formatação com precisão. No uso real, é muito melhor do que os benchmarks sugerem
Muito raramente (0,1%) ele produz resultados estranhos, mas ainda é muito mais estável do que a taxa de falha de 15% do gpt-5
Em breve também vou testar os novos modelos e compartilhar os resultados
- Antes eu assinava vários chatbots, mas agora alterno entre Grok, ChatGPT, Gemini, Deepseek e Mistral
  Em APIs, sinto que a maior vantagem é o modelo se comportar como esperado
  Agora escolho os modelos de que preciso via Openrouter
  Acho que o aumento recente de chatbots baseados em anúncios acontece porque, ao contrário dos benchmarks, usuários reais não percebem tanta diferença e acabam cancelando assinaturas pagas
  Hoje mesmo a OpenAI me ofereceu um mês grátis de teste, como se tivesse esquecido que eu já usei isso há dois meses
- Tive uma experiência parecida. Os modelos da Mistral podem não ser os melhores em benchmarks, mas para tarefas simples como classificação ou resumo são os mais eficientes
  Especialmente usando o mistral-small com a batch API, o custo-benefício é muito bom
- Sinto que há limites na forma como avaliamos LLMs por benchmarks
  Overfitting pode reduzir a utilidade no mundo real, e o Chatbot Arena surgiu justamente por causa desse tipo de avaliação em uso real
  Mas até isso recebe críticas por favorecer aspectos como seguir formato ou bajulação
  No fim, acho que precisamos de mais modelos especializados por tarefa
- Obrigado por compartilhar um caso de uso dos modelos da Mistral
  Mas a frase “Hand-crafted by humans” no phrasing.app pareceu um pouco irônica, considerando que na prática ele usa LLMs avançados
- Fiquei na dúvida se você quis dizer que o gpt-5 gera saídas estranhas com 15% de probabilidade
  Será que você comparou a taxa de erro da Mistral com a taxa de falha do gpt-5.1 em tarefas complexas?
  E também fiquei curioso para saber se a Mistral tem um modelo com Tool Use. Seria ótimo ver um novo modelo voltado para programação
É interessante que o novo modelo grande use a arquitetura DeepseekV2
A página oficial não menciona isso, mas acho bom ver modelos open source adotando estruturas mais recentes
O K2 também seguiu uma abordagem parecida e, olhando o código real (mistral_large_3.py), ele é baseado no DeepseekV3
Como diz a frase “a ciência sempre avança com abertura e compartilhamento”, essa transparência é bem-vinda
Agora vou testar o modelo 14B em casa, e também estou animado com a adição de recursos de Vision
- No fim, parece que concentraram o P&D em copiar o Deepseek e deram menos atenção ao único recurso realmente adicional, o Vision
  A própria página no Hugging Face diz que o Mistral Large 3 fica atrás de modelos especializados em Vision em tarefas multimodais
- Na verdade, hoje em dia acho que diferenças de arquitetura importam menos do que dados, tuning e pipeline para determinar o desempenho do modelo
- Exigir que tudo seja aberto e depois criticar quando alguém usa o que foi aberto me parece dois pesos e duas medidas
É impressionante que o modelo Vision de 3B rode diretamente no navegador
Basta baixar o modelo de 3 GB e ele já pode ser executado, e há uma demo no Hugging Face
O texto de Simon Willison também vale a leitura
- Com essa tecnologia, talvez dê para criar ferramentas de acessibilidade como um descrevedor de vídeo em tempo real para pessoas com deficiência visual
  Consigo imaginar um recurso que explique não só a fala, mas também as ações que acontecem no vídeo
Fico feliz em ver a Mistral da Europa de volta depois de um tempo
Também é positivo que tenha voltado ao open source com licença Apache 2.0
Por um bom período ela foi a melhor em modelos pequenos para GPU de consumidor, então espero que este novo Ministral 14B entregue tão bem quanto os benchmarks indicam
- Na prática, acho que esse resultado se deve ao capital de VC dos EUA
  Dentro da Europa, seria difícil conseguir financiamento nessa escala para treinamento de IA
Os novos modelos parecem legais, mas é uma pena não haver comparação com modelos SOTA como OpenAI, Google e Anthropic
Fica difícil entender o posicionamento geral
- Pelos resultados da LMArena, o Mistral Large 3 está em 28º lugar, e a diferença de pontuação para os modelos do topo não é tão grande
  O melhor modelo tem 1491 pontos, e o Mistral 1418, então a diferença de desempenho é pequena
- Mas parece que empresas evitam esse tipo de comparação por causa de possíveis restrições de publicidade
- De qualquer forma, a Mistral provavelmente sabe que é difícil competir com modelos fechados
  O fato de nem comparar com o GPT-OSS parece um movimento um tanto conservador
- O simples fato de não terem divulgado comparações já diz muita coisa
Torço pelo esforço europeu
- Mas não podemos esquecer que dentro da própria Europa também há muita pesquisa ativa em IA, como a do DeepMind em Londres
- Quero equilibrar com a piada de que “o Windows 11 é a maior obra-prima dos EUA”
Sinceramente, parece que o Deepseek 3.2 roubou toda a atenção ontem
É uma pena que a comparação desta vez tenha sido baseada no Deepseek 3.1
Segundo a notícia oficial, o 3.2 trouxe melhorias significativas
Ainda não entendo bem o incentivo para divulgar bons pesos de modelo
Quando a OpenAI lança algo como o gpt-oss, pode ser por motivos de PR,
e empresas chinesas parecem usar uma estratégia parecida para abalar a posição das big techs americanas
Fico em dúvida se continuaremos vendo bons modelos com pesos abertos no futuro
- Porque é difícil ganhar dinheiro com modelos fechados
  Pesos abertos criam canais secundários de receita, como serviços corporativos de fine-tuning
  Como transparência, controle, privacidade e redução de custos são importantes para empresas,
  esse ecossistema aberto pode acabar comendo espaço dos modelos fechados no longo prazo
  Veja o serviço relacionado em Mistral Custom Model Training
- O gpt-oss não é só para benchmark; ele é realmente muito forte em resolução de problemas matemáticos
  Ele continua no topo também na competição AIME3 do Kaggle
- Como o modelo de monetização ainda é incerto, empresas de IA hoje focam mais em garantir capital de VC do que em fazer os melhores modelos
  Divulgar modelos abertos faz o valor da empresa disparar e ajuda a garantir GPUs
  Mas, se no fim não surgir um modelo de negócio sustentável, isso será um grande problema
- O gpt-oss tem desempenho excelente em chamadas de ferramenta e é estável no geral
- O Google passa uma forte impressão de manipular benchmarks
  O Gemini aparece à frente nos benchmarks, mas no uso real entrega menos
Comparei as pontuações agregadas de benchmark de vários modelos
O Gemini 3.0 Pro está em primeiro com 84,8, o DeepSeek 3.2 com 83,6 e o GPT-5.1 com 69,2
O Mistral Large 3 fica baixo, com 41,9, mas os modelos 14B, 8B e 3B estão em nível SOTA
e não têm problemas de censura como o Qwen3
- Fiquei curioso com a grande diferença entre o Gemini 3 e o GPT-5.1/Opus 4.5
  Queria saber em que áreas o Gemini é tão forte assim
Nos benchmarks o Gemini é o melhor, mas na prática parece inferior ao ChatGPT ou ao Claude
Ele fala bobagem com mais frequência, e parece que o Google só está inflando a pontuação em benchmark
Espero que open source como a Mistral comam espaço desse mercado
- O objetivo de LLMs com pesos abertos não é derrotar modelos fechados
  Eles funcionam como um contrapeso no ecossistema, e isso já é importante para evitar monopólios
- Eu usei o Gemini enquanto aprendia a montar um cluster k8s on-prem, e nesse tema ele foi muito preciso
  Talvez porque seja uma área bem coberta pelos dados de treinamento
- Pelas minhas perguntas, o Gemini 3 teve menos alucinações do que o GPT-5.1
- Pessoalmente, o Gemini foi o que mais me decepcionou, e senti que havia promoção excessiva de um jeito pouco natural
- Fora de tarefas de programação, o Gemini consegue apresentar fundamentos com mais facilidade por causa da integração com o Google Search

Lançamento da família de modelos Mistral 3

Visão geral do Mistral 3

Mistral Large 3: principal modelo open-weight de ponta

Parceria com NVIDIA·vLLM·Red Hat

Ministral 3: modelo inteligente para edge

Distribuição e acessibilidade

Valor central do Mistral 3

Próximos passos

Conclusão

Leituras relacionadas

1 comentários

Opiniões do Hacker News