3 pontos por GN⁺ 2025-06-11 | 1 comentários | Compartilhar no WhatsApp
  • Magistral é o primeiro modelo de raciocínio da Mistral AI, especializado em domínios específicos, transparência e raciocínio multilíngue
  • Lançado em duas versões: o open source Magistral Small (24B de parâmetros) e a versão enterprise Magistral Medium
  • Fornece raciocínio multilíngue baseado em Chain of Thought, mostrando de forma transparente o processo lógico passo a passo no idioma do usuário
  • No AIME2024, o Magistral Medium alcançou 73,6% (máximo de 90%) e o Small 70,7% (máximo de 83,3%)
  • Oferece encadeamento lógico preciso passo a passo e velocidade de resposta 10x maior para diferentes idiomas e setores, como jurídico, finanças, saúde, engenharia de dados, desenvolvimento de software e conteúdo criativo

Magistral — anúncio do primeiro modelo de raciocínio da Mistral AI

  • O Magistral é um modelo de reasoning focado em capacidade de resolver problemas do mundo real e melhoria baseada em feedback
  • O Magistral Small é a versão open source com 24B de parâmetros, enquanto o Magistral Medium é uma versão enterprise mais poderosa; os dois foram lançados em paralelo
  • Métricas de desempenho:
    • Magistral Medium: 73,6% no AIME2024, chegando a 90% com votação por maioria
    • Magistral Small: 70,7% e 83,3%, respectivamente
  • Aplica raciocínio Chain of Thought com base em idiomas e sistemas de escrita globais, permitindo desenvolver o pensamento em nível de língua nativa
  • Adequado para tarefas como cálculo estruturado, lógica de programação, árvores de decisão e sistemas baseados em regras
  • Com os recursos Think mode e Flash Answers do Le Chat, melhora a velocidade de resposta em 10x em relação aos concorrentes
  • O artigo oficial inclui uma avaliação abrangente de algoritmos, infraestrutura de treinamento, técnicas de reinforcement learning e insights de treinamento

Modelos e detalhes técnicos

  • Processo de raciocínio transparente:
    • O Magistral é otimizado para lógica em múltiplas etapas, permitindo que o usuário veja e acompanhe o processo de raciocínio no próprio idioma
    • Diferentemente de modelos gerais, reforça a interpretabilidade e os recursos de verificação
    • O objetivo é permitir atualizações contínuas do modelo e melhorias rápidas
  • Raciocínio multilíngue: alta precisão e manutenção da lógica em inglês, francês, espanhol, alemão, italiano, árabe, russo, chinês e outros idiomas
  • Velocidade de resposta:
    • O Magistral Medium oferece raciocínio e feedback em tempo real por meio do recurso Flash Answers do Le Chat, com velocidade de processamento de tokens 10x maior que a dos concorrentes
    • Demonstrou excelência em velocidade em comparação com modelos concorrentes importantes, como o ChatGPT

Open source e participação da comunidade

  • O Magistral Small foi lançado sob a licença Apache 2.0
  • Os usuários podem analisar, modificar e reestruturar diretamente sua arquitetura e seu método de raciocínio
  • Modelos open source anteriores foram usados em projetos de pesquisa inovadores como ether0 e DeepHermes 3

Casos de uso amplos

  • O Magistral é otimizado para áreas em que raciocínio preciso passo a passo e transparência são essenciais, como jurídico, finanças, desenvolvimento de software e storytelling
  • Estratégia e operações de negócios

    • Pode executar planejamento estratégico, avaliação de riscos, tomada de decisão orientada por dados e cálculo de soluções ótimas sob restrições complexas
  • Setores regulados e setor público

    • Profissionais de direito, finanças, saúde e governo podem rastrear caminhos de raciocínio lógico e garantir auditabilidade
    • Ajuda a atender requisitos de auditabilidade e conformidade regulatória
  • Sistemas, software e engenharia de dados

    • Melhora a qualidade do suporte em programação, design de projetos, arquitetura backend e engenharia de dados em comparação com LLMs sem raciocínio
    • É eficaz em tarefas de múltiplas etapas, como integração com ferramentas externas e APIs
  • Geração de conteúdo e comunicação

    • O Magistral também apresenta excelentes resultados em escrita criativa e storytelling
    • Além de texto consistente, também consegue gerar ideias únicas e criativas

Como usar e canais de disponibilização

  • A versão Small pode ser baixada e implantada por conta própria
  • A versão Medium pode ser usada imediatamente no Le Chat (web), API e Amazon SageMaker
  • Em breve haverá suporte adicional no IBM WatsonX, Azure AI e Google Cloud Marketplace
  • Implantações personalizadas para empresas e on-premises mediante contato separado

1 comentários

 
GN⁺ 2025-06-11
Comentários do Hacker News
  • Compartilhamento de experiência de quem criou e enviou diretamente uma versão GGUF do modelo Magistral Small no HuggingFace. Dá para executar no ollama com o comando ollama run hf.co/unsloth/Magistral-Small-2506-GGUF:UD-Q4_K_XL, e no llama.cpp a recomendação é usar obrigatoriamente opções como --jinja, --temp 0.7 e --top-p 0.95. Também é recomendado aumentar o comprimento de contexto do Ollama para mais de 8192, e há mais orientações na documentação oficial
    • A comparação de benchmarks com o DeepSeek é um ponto interessante. O artigo original do Magistral compara com as versões DeepSeek-V3 (dezembro de 2023) e DeepSeek-R1 (janeiro de 2024), mas a avaliação é que a versão mais recente DeepSeek-R1-0528 seria uma comparação mais justa. Como exemplo, o R1 fez 79,8 no AIME 2024 e o R1-0528 chegou a 91,4; no AIME 2025, os números foram 70 e 87,5, respectivamente. Os benchmarks mais recentes do DeepSeek podem ser vistos aqui
    • Avaliação de que o artigo do Magistral (PDF) é realmente impressionante. No texto, ao tratar de GRPO, são apresentadas várias melhorias: 1) remoção da KL Divergence 2) normalização pelo comprimento total 3) normalização de advantage por minibatch 4) relaxamento da trust region
    • Apesar do risco de verificação de idade, há elogios enfáticos ao modelo da Unsloth, descrito como realmente “absurdo de bom”. A pessoa diz estar satisfeita porque o modelo sempre funciona bem e levanta a dúvida sobre o que o llama.cpp usa por padrão quando não há jinja
    • Com a ideia de não pensar demais sobre isso, é fornecido como referência um link para gist
  • Só pelos resultados de benchmark, dá para ver que os modelos Magistral Small e Medium ficam atrás da versão mais recente do DeepSeek-R1 em todos os testes one-shot. O artigo nem sequer menciona o DeepSeek-R1 mais novo, e o custo também é mais de duas vezes maior, o que reforça a percepção de que até uma empresa considerada a principal referência europeia em IA está tendo dificuldade para acompanhar a tendência atual da tecnologia
    • Como o DeepSeek R1 inicial entregou desempenho enorme com pouquíssimo compute, causa estranheza que o novo R1 não esteja dominando todos os benchmarks contra o o3, 2.5 Pro e outros. O Magistral Small (24B) obteve 70,7% no AIME 2024, enquanto o R1 distill (32B) fez 72,6%. Com majority voting@64, o Magistral Small sobe para 83,3%, superando o R1 completo. Um diferencial importante é que um modelo 24B pode rodar até em GPUs gamer comuns, o que melhora bastante a acessibilidade. Foi adicionado também um link para o modelo Distill
    • Na disputa acirrada entre modelos de IA, mesmo chegar 6 a 12 meses depois do estado da arte mais recente, sem gastar custos astronômicos, ainda pode ter grande significado do ponto de vista de engenharia. Claro, do ponto de vista de participação de mercado, é compreensível a lógica de clientes que só querem o “melhor”, mas fica a dúvida sobre quão importante é a participação de mercado em um negócio que só perde dinheiro para sempre
    • Ao olhar a estrutura de investidores da Mistral, a ênfase é que, na prática, ela não seria uma empresa europeia, já que capital americano seria o principal dono. Mais detalhes podem ser vistos no link com informações de investidores
    • Mesmo que a competitividade seja um pouco menor, a opinião é que cada região precisa ter seus próprios modelos, com controle local sobre o treinamento, por uma questão estratégica. Mas existe o risco de, se a defasagem tecnológica ficar grande demais, isso ser tratado como inútil do ponto de vista do usuário
    • Chama atenção o fato de a Mistral ter construído um pipeline de treinamento totalmente “independente”. Concorrentes como a DeepSeek provavelmente teriam treinado com dados de GPT-4, o1 e afins
  • Foram reunidas em um link de registro anotações de quem aplicou diretamente os modelos Magistral via Ollama, API e plugin llm-mistral
    • Perguntam ao Simon qual é a diferença prática entre “dois pelicanos andando de bicicleta”. A suposição é que a versão menor foi executada localmente, enquanto a versão maior, com melhor desempenho, foi usada via API
  • Relato de uso real de quando o modelo Mistral OCR estava sendo amplamente promovido e foi preciso fazer OCR em um PDF de 600 páginas. Embora tudo fosse texto monoespaçado, 80% do resultado de OCR foi reconhecido como imagem e quase só saía espaço em branco, ficando muito pior que o tesseract. Um mês depois, além do resultado péssimo, ainda veio a cobrança, e a conta acabou sendo apagada. O novo produto pode até estar melhor, mas o excesso de marketing da Mistral já esfriou bastante a expectativa
  • Há confusão sobre a seleção de amostras dos benchmarks, considerada dispersa e limitada demais. Só o Magistral Medium é comparado com Deepseek V3, R1 e Mistral Medium 3, e não se entende por que Magistral Small, Alibaba Qwen e versões mini do o3/o4 ficaram de fora
  • Para testar raciocínio lógico e conhecimento geral em nível de Wikipédia, foi feita à Mistral AI a pergunta sobre “em que ponto ocorre a imigração para um cidadão brasileiro indo de São Paulo a Paris com conexão em Lisboa”. A Mistral AI respondeu “apenas em Paris” e, depois que foi sugerido consultar o artigo da Wikipédia, corrigiu para “em Lisboa”. A Meta AI (Llama 4) respondeu que não seria necessário em nenhum dos dois lugares, mostrando falta de precisão. Há curiosidade sobre como outros LLMs responderiam
    • A opinião é que a pergunta em si é praticamente uma pegadinha. Na prática, além da entrada no Espaço Schengen em Lisboa, também haveria controle em São Paulo por ser o ponto de saída do Brasil/Mercosul
    • A resposta dada pelo Gemini (2.5 Flash) foi considerada impressionante. Fluxo principal: cidadãos brasileiros têm isenção de visto Schengen por até 90 dias. A imigração ocorre em Lisboa, e o trecho até Paris passa a ser tratado como voo doméstico dentro do Schengen, sem nova imigração em Paris. A partir de 2026, está prevista a introdução do ETIAS, mas isso seria uma autorização eletrônica prévia e não mudaria o local da imigração
    • Também se aponta que quem fez a pergunta estava confuso sobre a resposta, e que esse tipo de teste é interessante porque facilita comparar o quanto os LLMs respondem de forma convincente
    • Fica ainda a possibilidade de que, por existir um acordo especial de isenção de visto entre Brasil e Portugal, a resposta do Llama 4 talvez pudesse até estar correta, deixando a questão em aberto de forma provisória
  • Gostariam que o Qwen3 tivesse sido incluído no gráfico de benchmarks. Mesmo o Qwen3-4B parece quase equivalente ao Magistral-22B, enquanto o Qwen3-30B-A3B mostra resultados muito superiores
    • Avaliação de que o modelo 30-A3B é realmente impressionante. Rodando localmente sem custo de API, ele já supera até modelos fechados de um ou dois anos atrás. Em tarefas de programação, é até melhor avaliado que o gpt-4o
    • Há curiosidade sobre a existência de algum site automatizado com benchmarks de vários modelos. A própria pessoa testou e concluiu que o Qwen3-30B-A3B ainda oferece o melhor desempenho em condições parecidas de parâmetros e memória
    • A percepção é que o Qwen3 é o modelo de raciocínio mais impressionante já testado até agora
    • A avaliação é que a Mistral nunca foi realmente útil, porque sempre havia outros modelos melhores. O único diferencial seria o fato de ser europeia. Independentemente do desempenho, o nome Mistral deve continuar circulando
  • Uma observação curiosa sobre etimologia. “mistral” e “magistral” viriam ambos de “masterly” no sentido de algo feito com maestria. mistral viria originalmente do occitano e hoje, em inglês, é usado principalmente para se referir ao vento do Mediterrâneo. magistral seria a forma adjetiva de “magister”. Fica a sugestão de procurar mais palavras relacionadas e registrar domínios como oportunidade de lucro
  • Há curiosidade sobre quantos modelos de reasoning com pesos abertos ainda existem. Surge a ideia de rodar vários modelos ao mesmo tempo sobre o mesmo problema. Também chama atenção o fato de terem lançado o Small e mantido o Medium como serviço pago. Fica a dúvida se o Medium poderia, de certa forma, ser usado como uma cadeia de várias execuções do Small
    • A opinião é que Qwen 3, DeepSeek R1 e Phi-4 Reasoning são atualmente os melhores modelos de reasoning com pesos abertos
    • Na prática, seria basicamente a família DeepSeek, e com modelos distill já seria possível rodar em hardware de consumidor comum
  • Há curiosidade se o uso excessivo de travessões curtos nas frases de marketing reflete também o estilo de texto gerado pelo modelo. Se sim, isso precisaria melhorar
    • Em um dos textos promocionais, afirma-se que o Magistral é um excelente companheiro para trabalho criativo e que, se necessário, pode até gerar textos “estranhamente únicos”
    • É mencionado numericamente que havia 49 travessões curtos e 59 vírgulas, uma proporção chamativa
    • A análise é que isso faz parte apenas do estilo de marketing da Mistral, e que a mesma proporção de travessões curtos não é observada nos textos gerados pelo modelo
    • Há um relato de que, no LibreOffice, ao digitar - e depois espaço, isso às vezes vira um travessão curto, então a pessoa corrige manualmente para evitar mal-entendidos
    • Há ainda uma menção bem-humorada de que, na área jurídica, existe até uma certa paixão por travessões curtos