4 pontos por GN⁺ 2025-12-03 | 1 comentários | Compartilhar no WhatsApp
  • A série Mistral 3 é uma nova família de modelos de IA open source composta por modelos compactos de 3B, 8B e 14B e pelo Mistral Large 3, com 41B parâmetros ativos e 675B parâmetros totais
  • Todos os modelos foram divulgados com licença Apache 2.0, permitindo que desenvolvedores e empresas os utilizem e personalizem livremente
  • O Mistral Large 3 adota a arquitetura Mixture-of-Experts, foi treinado com 3.000 GPUs NVIDIA H200 e alcançou desempenho de ponta em diálogo multilíngue e compreensão de imagem
  • O Ministral 3 foi projetado para ambientes de edge, com excelente custo-benefício, e o modelo de reasoning marcou 85% de precisão no AIME ‘25
  • O Mistral 3 está disponível imediatamente em plataformas principais como Mistral AI Studio, Hugging Face, AWS, Azure, com foco em expandir o ecossistema de IA aberta

Visão geral do Mistral 3

  • O Mistral 3 é uma nova família de modelos da Mistral AI, composta por modelos densos compactos (3B, 8B e 14B) e pelo modelo esparso de maior porte Mistral Large 3
    • O Mistral Large 3 possui uma estrutura Mixture-of-Experts (MoE) com 41B parâmetros ativos e 675B parâmetros totais
    • Todos os modelos são disponibilizados sob licença Apache 2.0, permitindo uso pela comunidade open source
  • Os modelos são oferecidos em vários formatos de compressão, melhorando a acessibilidade por meio de inteligência distribuída
  • A família Ministral é avaliada como o modelo OSS com melhor custo-benefício

Mistral Large 3: principal modelo open-weight de ponta

  • O Mistral Large 3 é um modelo de pesos abertos, treinado do zero com 3.000 GPUs NVIDIA H200
    • É o primeiro modelo Mixture-of-Experts após a série Mixtral, refletindo o avanço das técnicas de pré-treinamento da Mistral
  • Após o treinamento, apresentou desempenho de nível de ponta equivalente aos melhores modelos de pesos abertos em desempenho geral de prompts e alcançou ótimos resultados em compreensão de imagem e diálogo multilíngue fora do inglês
  • No leaderboard da LMArena, ficou em 2º no ranking de modelos OSS sem reasoning e 6º entre os modelos OSS no geral
  • As versões base e de ajuste instruct foram publicadas, e a versão reasoning será lançada em breve

Parceria com NVIDIA·vLLM·Red Hat

  • O Mistral Large 3 torna-se de fácil acesso para a comunidade open source por meio de colaboração com vLLM e Red Hat
    • Fornece checkpoints em formato NVFP4 gerados com o llm-compressor
    • Permitindo execução eficiente em sistemas Blackwell NVL72, 8×A100 e 8×H100 via vLLM
  • A colaboração com a NVIDIA adiciona suporte de inferência de baixa precisão em TensorRT-LLM, SGLang e outros
    • Integrando kernels de Blackwell Attention e MoE, serving de prefill/decode separado e recurso de speculative decoding
  • A implantação otimizada também é suportada em ambientes de edge, incluindo DGX Spark, RTX PC e dispositivos Jetson

Ministral 3: modelo inteligente para edge

  • A série Ministral 3 para ambientes edge e locais é oferecida em três tamanhos: 3B, 8B e 14B
    • Cada modelo foi disponibilizado em três variantes: base, instruct e reasoning
    • Todas as variantes incluem recursos de compreensão de imagem e processamento multilíngue
  • É o modelo OSS com melhor custo-benefício, com o modelo instruct exibindo desempenho equivalente ou superior aos concorrentes enquanto reduz tokens em cerca de 1/10
  • O modelo reasoning se destaca em cenários orientados à precisão, com o modelo 14B alcançando 85% de precisão no AIME ‘25

Distribuição e acessibilidade

  • O Mistral 3 está disponível imediatamente nas plataformas a seguir
    • Mistral AI Studio, Amazon Bedrock, Azure Foundry, Hugging Face, Modal, IBM WatsonX, OpenRouter, Fireworks, Unsloth AI, Together AI
    • Em breve, também estará disponível em NVIDIA NIM e AWS SageMaker
  • Serviço de treinamento de modelos personalizados para empresas
    • Incluindo suporte para tarefas específicas de domínio, melhoria de desempenho com datasets proprietários e implantação em ambientes especiais

Valor central do Mistral 3

  • Performance de ponta e acesso aberto: entrega performance em nível de modelos proprietários em formato open source
  • Suporte multimodal e multilíngue: entende texto, imagem e raciocínio em mais de 40 idiomas
  • Eficiência escalável: cobertura de 3B a 675B parâmetros, atendendo desde edge até enterprise
  • Adaptabilidade prática: aplicável a diferentes fluxos de trabalho, como programação, análise de documentos e uso de ferramentas

Próximos passos

  • Documentação e materiais técnicos dos modelos estão disponíveis em Mistral Docs e AI Governance Hub
  • Uso imediato da API via Hugging Face e pela plataforma Mistral AI
  • Canal de atendimento para treinamento e fine-tuning personalizados para empresas
  • Participação na comunidade disponível no Twitter/X, Discord e GitHub

Conclusão

  • O Mistral 3 busca expandir o ecossistema de IA aberta com base em transparência, acessibilidade e colaboração
  • Abre novas possibilidades em raciocínio, eficiência e uso prático, consolidando-se como um modelo open source de nova geração que “transforma compreensão em ação”

1 comentários

 
GN⁺ 2025-12-03
Opiniões do Hacker News
  • Eu uso grandes modelos de linguagem (LLM) no phrasing.app para organizar dados em um formato consistente
    Há alguns meses mudei para o mistral-3-medium-0525, depois de sofrer com saídas estranhas frequentes do gpt-5
    O Mistral é rápido, barato e segue instruções de formatação com precisão. No uso real, é muito melhor do que os benchmarks sugerem
    Muito raramente (0,1%) ele produz resultados estranhos, mas ainda é muito mais estável do que a taxa de falha de 15% do gpt-5
    Em breve também vou testar os novos modelos e compartilhar os resultados

    • Antes eu assinava vários chatbots, mas agora alterno entre Grok, ChatGPT, Gemini, Deepseek e Mistral
      Em APIs, sinto que a maior vantagem é o modelo se comportar como esperado
      Agora escolho os modelos de que preciso via Openrouter
      Acho que o aumento recente de chatbots baseados em anúncios acontece porque, ao contrário dos benchmarks, usuários reais não percebem tanta diferença e acabam cancelando assinaturas pagas
      Hoje mesmo a OpenAI me ofereceu um mês grátis de teste, como se tivesse esquecido que eu já usei isso há dois meses
    • Tive uma experiência parecida. Os modelos da Mistral podem não ser os melhores em benchmarks, mas para tarefas simples como classificação ou resumo são os mais eficientes
      Especialmente usando o mistral-small com a batch API, o custo-benefício é muito bom
    • Sinto que há limites na forma como avaliamos LLMs por benchmarks
      Overfitting pode reduzir a utilidade no mundo real, e o Chatbot Arena surgiu justamente por causa desse tipo de avaliação em uso real
      Mas até isso recebe críticas por favorecer aspectos como seguir formato ou bajulação
      No fim, acho que precisamos de mais modelos especializados por tarefa
    • Obrigado por compartilhar um caso de uso dos modelos da Mistral
      Mas a frase “Hand-crafted by humans” no phrasing.app pareceu um pouco irônica, considerando que na prática ele usa LLMs avançados
    • Fiquei na dúvida se você quis dizer que o gpt-5 gera saídas estranhas com 15% de probabilidade
      Será que você comparou a taxa de erro da Mistral com a taxa de falha do gpt-5.1 em tarefas complexas?
      E também fiquei curioso para saber se a Mistral tem um modelo com Tool Use. Seria ótimo ver um novo modelo voltado para programação
  • É interessante que o novo modelo grande use a arquitetura DeepseekV2
    A página oficial não menciona isso, mas acho bom ver modelos open source adotando estruturas mais recentes
    O K2 também seguiu uma abordagem parecida e, olhando o código real (mistral_large_3.py), ele é baseado no DeepseekV3
    Como diz a frase “a ciência sempre avança com abertura e compartilhamento”, essa transparência é bem-vinda
    Agora vou testar o modelo 14B em casa, e também estou animado com a adição de recursos de Vision

    • No fim, parece que concentraram o P&D em copiar o Deepseek e deram menos atenção ao único recurso realmente adicional, o Vision
      A própria página no Hugging Face diz que o Mistral Large 3 fica atrás de modelos especializados em Vision em tarefas multimodais
    • Na verdade, hoje em dia acho que diferenças de arquitetura importam menos do que dados, tuning e pipeline para determinar o desempenho do modelo
    • Exigir que tudo seja aberto e depois criticar quando alguém usa o que foi aberto me parece dois pesos e duas medidas
  • É impressionante que o modelo Vision de 3B rode diretamente no navegador
    Basta baixar o modelo de 3 GB e ele já pode ser executado, e há uma demo no Hugging Face
    O texto de Simon Willison também vale a leitura

    • Com essa tecnologia, talvez dê para criar ferramentas de acessibilidade como um descrevedor de vídeo em tempo real para pessoas com deficiência visual
      Consigo imaginar um recurso que explique não só a fala, mas também as ações que acontecem no vídeo
  • Fico feliz em ver a Mistral da Europa de volta depois de um tempo
    Também é positivo que tenha voltado ao open source com licença Apache 2.0
    Por um bom período ela foi a melhor em modelos pequenos para GPU de consumidor, então espero que este novo Ministral 14B entregue tão bem quanto os benchmarks indicam

    • Na prática, acho que esse resultado se deve ao capital de VC dos EUA
      Dentro da Europa, seria difícil conseguir financiamento nessa escala para treinamento de IA
  • Os novos modelos parecem legais, mas é uma pena não haver comparação com modelos SOTA como OpenAI, Google e Anthropic
    Fica difícil entender o posicionamento geral

    • Pelos resultados da LMArena, o Mistral Large 3 está em 28º lugar, e a diferença de pontuação para os modelos do topo não é tão grande
      O melhor modelo tem 1491 pontos, e o Mistral 1418, então a diferença de desempenho é pequena
    • Mas parece que empresas evitam esse tipo de comparação por causa de possíveis restrições de publicidade
    • De qualquer forma, a Mistral provavelmente sabe que é difícil competir com modelos fechados
      O fato de nem comparar com o GPT-OSS parece um movimento um tanto conservador
    • O simples fato de não terem divulgado comparações já diz muita coisa
  • Torço pelo esforço europeu

    • Mas não podemos esquecer que dentro da própria Europa também há muita pesquisa ativa em IA, como a do DeepMind em Londres
    • Quero equilibrar com a piada de que “o Windows 11 é a maior obra-prima dos EUA”
  • Sinceramente, parece que o Deepseek 3.2 roubou toda a atenção ontem
    É uma pena que a comparação desta vez tenha sido baseada no Deepseek 3.1
    Segundo a notícia oficial, o 3.2 trouxe melhorias significativas

  • Ainda não entendo bem o incentivo para divulgar bons pesos de modelo
    Quando a OpenAI lança algo como o gpt-oss, pode ser por motivos de PR,
    e empresas chinesas parecem usar uma estratégia parecida para abalar a posição das big techs americanas
    Fico em dúvida se continuaremos vendo bons modelos com pesos abertos no futuro

    • Porque é difícil ganhar dinheiro com modelos fechados
      Pesos abertos criam canais secundários de receita, como serviços corporativos de fine-tuning
      Como transparência, controle, privacidade e redução de custos são importantes para empresas,
      esse ecossistema aberto pode acabar comendo espaço dos modelos fechados no longo prazo
      Veja o serviço relacionado em Mistral Custom Model Training
    • O gpt-oss não é só para benchmark; ele é realmente muito forte em resolução de problemas matemáticos
      Ele continua no topo também na competição AIME3 do Kaggle
    • Como o modelo de monetização ainda é incerto, empresas de IA hoje focam mais em garantir capital de VC do que em fazer os melhores modelos
      Divulgar modelos abertos faz o valor da empresa disparar e ajuda a garantir GPUs
      Mas, se no fim não surgir um modelo de negócio sustentável, isso será um grande problema
    • O gpt-oss tem desempenho excelente em chamadas de ferramenta e é estável no geral
    • O Google passa uma forte impressão de manipular benchmarks
      O Gemini aparece à frente nos benchmarks, mas no uso real entrega menos
  • Comparei as pontuações agregadas de benchmark de vários modelos
    O Gemini 3.0 Pro está em primeiro com 84,8, o DeepSeek 3.2 com 83,6 e o GPT-5.1 com 69,2
    O Mistral Large 3 fica baixo, com 41,9, mas os modelos 14B, 8B e 3B estão em nível SOTA
    e não têm problemas de censura como o Qwen3

    • Fiquei curioso com a grande diferença entre o Gemini 3 e o GPT-5.1/Opus 4.5
      Queria saber em que áreas o Gemini é tão forte assim
  • Nos benchmarks o Gemini é o melhor, mas na prática parece inferior ao ChatGPT ou ao Claude
    Ele fala bobagem com mais frequência, e parece que o Google só está inflando a pontuação em benchmark
    Espero que open source como a Mistral comam espaço desse mercado

    • O objetivo de LLMs com pesos abertos não é derrotar modelos fechados
      Eles funcionam como um contrapeso no ecossistema, e isso já é importante para evitar monopólios
    • Eu usei o Gemini enquanto aprendia a montar um cluster k8s on-prem, e nesse tema ele foi muito preciso
      Talvez porque seja uma área bem coberta pelos dados de treinamento
    • Pelas minhas perguntas, o Gemini 3 teve menos alucinações do que o GPT-5.1
    • Pessoalmente, o Gemini foi o que mais me decepcionou, e senti que havia promoção excessiva de um jeito pouco natural
    • Fora de tarefas de programação, o Gemini consegue apresentar fundamentos com mais facilidade por causa da integração com o Google Search