2 pontos por GN⁺ 2026-04-30 | 1 comentários | Compartilhar no WhatsApp
  • Modelo 128B Dense que unifica execução de instruções, raciocínio e código em um único conjunto de pesos, com suporte a janela de contexto de 256k
  • Permite ajustar o esforço de raciocínio por solicitação, cobrindo com um único modelo desde chats simples até tarefas agênticas complexas
  • SWE-Bench Verified 77,6%, τ³-Telecom 91,4 pontos, superando Devstral 2 e Qwen3.5 397B A17B
  • Novo treinamento do codificador de visão, permitindo lidar com tamanhos de imagem e proporções variáveis
  • Com o agente remoto Vibe, sessões de programação podem ser executadas de forma assíncrona na nuvem, com várias sessões em paralelo e notificação ao concluir
  • Pode ser iniciado via CLI ou Le Chat, e ao teletransportar uma sessão local para a nuvem, o histórico, estado e registros de aprovação são mantidos
  • Cada sessão é executada em um sandbox isolado e, ao concluir, um PR no GitHub é criado automaticamente
  • Integração com ferramentas de desenvolvimento existentes como GitHub, Linear, Jira, Sentry, Slack e Teams
  • Indicado para tarefas repetitivas e bem definidas como refatoração de módulos, geração de testes, upgrade de dependências, investigação de CI e correção de bugs
  • O modo Work do Le Chat (preview) usa simultaneamente várias ferramentas, como e-mail, calendário e mensagens, para concluir automaticamente tarefas de múltiplas etapas
    • Conectores ativados por padrão, exibição de todas as chamadas de ferramentas e da justificativa de raciocínio, e solicitação de aprovação explícita para tarefas sensíveis
  • Preço da API: US$ 1,5 por milhão de tokens de entrada e US$ 7,5 por milhão de tokens de saída
  • Pesos abertos publicados sob licença MIT modificada, com possibilidade de self-hosting com no mínimo 4 GPUs

1 comentários

 
GN⁺ 2026-04-30
Comentários no Hacker News
  • Não sei o que todo mundo nos comentários está vendo. Esse modelo não supera os outros, mas em relação ao tamanho é claramente competitivo
    O GLM 5.1 é excelente, mas mesmo em Q4 precisa de cerca de 400GB, e o Kimi K2.5 também é bom, mas na quantização Q4 precisa de quase 600GB
    Este modelo pode rodar em 70GB de VRAM com Q4, o que o aproxima mais do segmento consumidor. Já dá para comprar um Mac Studio com 128GB de RAM por algo em torno de 3.500 dólares
    Não sei se quem é obcecado por Claude só usa o Opus, mas no plano Pro o Sonnet já era muito competente. Este modelo roda localmente, supera o Sonnet mais recente e não cobra extra nem bloqueia sua conta arbitrariamente porque existe um HERMES.md no repositório
    A Mistral nunca foi realmente competitiva na frontier, mas talvez esse nem seja o papel que devemos esperar dela. Se for um modelo de Pareto que entrega 80% da frontier por 20% do custo/tamanho, já parece bom o bastante

    • Quem se interessa por LLM local sabe que conseguir “rodar” um modelo e conseguir “rodar rápido” são critérios completamente diferentes
      Dá para executar modelos assim num Mac de 128GB, mas primeiro é preciso ver se o Q4 mantém qualidade suficiente. Cada modelo tem uma sensibilidade à quantização diferente, e a velocidade real também importa
      Em trabalhos assíncronos ou em segundo plano, a velocidade de processamento do prompt e de geração de tokens importa menos, mas muitos compradores de Mac Studio descobriram da pior forma que a responsividade não chega perto da de modelos hospedados em hardware de verdade na nuvem
      Para a maioria das pessoas que não tem uma exigência forte de processamento on-premise, talvez a melhor forma de usar esse modelo seja por um dos provedores hospedados no OpenRouter, pagando por token
      Disseram que quase todos os modelos open weight lançados este ano igualam ou superam o Sonnet, mas mesmo quando parecem claramente à frente nos benchmarks, na prática eu ainda não senti isso
    • Eu não conhecia o HERMES.md, mas quem tiver curiosidade pode encontrar informações aqui https://github.com/anthropics/claude-code/issues/53262
    • Antes de fevereiro eu conseguia usar o Opus High no plano Max sem problemas, mas agora só uso o Sonnet High, e ele é bastante competente
      Gostei da expressão Claude Pilled
    • Dizer que “roda localmente e supera o Sonnet mais recente” não é verdade
      O benchmark é com F8_E4M3, e isso não roda em nenhum Mac
      O Sonnet tem 1M de contexto em tokens, mas este modelo tem 256k, e localmente há uma boa chance de nem isso funcionar direito
      O Sonnet é rápido mesmo pela rede, mas este modelo será bem mais lento
    • Também não dá para esquecer o Qwen 35B A3B MoE. Ele tem desempenho melhor que este modelo em todos os indicadores, com custo de memória/compute muito menor
      É uma pena que os modelos open source fora da China pareçam estar pelo menos uma geração atrás
  • Sempre torço pela Mistral. Diversidade de modelos e de países importa
    Este modelo parece uma base sólida para construir em cima, e espero que o 3.6/3.7 traga mais melhorias. Pelos benchmarks de computer use, o pipeline de visão parece ter espaço para melhorar, mas é só especulação
    Vendo alguns resultados de benchmark diferentes, dá a sensação de que não copiaram logs de frontier e sim treinaram um modelo realmente independente. Isso também é muito importante
    O fato de existir outra arquitetura de weights dentro de um modelo específico parece, por si só, uma vantagem do ponto de vista da arquitetura global do sistema

  • É bom para o mercado que a Mistral continue lançando modelos confiáveis
    Para os compradores terem poder de negociação em preço e implantação, é preciso sair da estrutura em que se escolhe entre só duas empresas

  • Comparando com outros LLMs hospedados que testei, parece que só a Mistral usa headers de CSP bem rígidos
    Se você pede para criar um site com bibliotecas JavaScript, o preview não funciona no Le Chat mesmo com canvas mode
    Às vezes eu só quero testar um pouco pela web quando sai um release novo, mas isso é difícil sem pagar ou usar agent harness
    Ele realmente é péssimo para desenhar SVG https://chat.mistral.ai/chat/23214adb-5530-4af9-bb47-90f5219...

    • Talvez SVG não seja o melhor benchmark, mas combina com a minha experiência usando modelos antigos da Mistral no Mistral Vibe
      No Vibe, pedi ajuda para configurar um servidor MCP, e ele explicou com toda confiança que MCP era MineCraft Protocol, depois começou a procurar binários do Minecraft no computador
    • Nunca quis, precisei ou esperei que um LLM desenhasse SVG
      Todos os modelos falham nisso, alguns só fracassam de um jeito mais divertido
  • Estou usando o mistral-medium-2508 para tarefas de transformação de texto e, no meu caso, ele dá resultados melhores que o mistral-large
    Quero testar o novo modelo também, mas ele é bem mais caro e está sendo apresentado como modelo de coding/agentic, então não sei se a intenção é substituir o medium anterior
    O mistral-medium-2508 custava $0.4/$2 por 1M tokens, e o mistral-medium-3.5 custa $1.5/$7.5

    • Estou usando o Mistral Large em produção para processar grandes blocos de texto
      Ele entrega resultados quase no nível do Sonnet por 90% menos. Eu nunca usaria para código, mas para esse trabalho de análise de texto ele foi ótimo. Também foi muito melhor que os modelos chineses mais recentes
      Por isso eu estava esperando este lançamento, mas ele custa 5 vezes mais que o Mistral Large atual. Estou preocupado que encerrem o Large barato ao migrar os releases
  • O problema deste modelo é que o DeepSeek v4 Flash roda muito bem em quantização de 2 bits https://github.com/antirez/llama.cpp-deepseek-v4-flash
    Num M3 Ultra ele faz 30 t/s na geração e 400 t/s no prefill, e num MacBook Pro M3 Max com 128GB também não fica muito mais lento
    Junto com opencode/pi, ele funciona como um bom agente de coding e o tool calling também é muito estável. Essa velocidade é algo que um modelo dense de 120B jamais vai alcançar
    Então ele precisa competir não só com modelos quantizados em 4 bits do mesmo porte, mas também com o DeepSeek v4 Flash em arquivo GGUF de 86GB, e do ponto de vista prático da inferência local não vai ser fácil ganhar
    Ainda há melhorias de velocidade não commitadas, que devo dar push em breve. A árvore atual pode estar um pouco lenta, mas ainda assim é bem utilizável
    Sou fã da Mistral e estou na Europa, mas há algo que não entendo. A Mistral abriu o caminho dos MoE open weight com o Mixtral, então por que agora está lançando um modelo dense consideravelmente grande?
    Desse jeito, fica difícil competir de forma confiável tanto em inferência local quanto remota. O modelo está longe de SOTA e o custo de serving também não é barato
    Modelos dense têm espaço na faixa de dezenas de bilhões de parâmetros, como o Qwen 3.6 27B, mas quando você vai para 5 vezes isso, só faz sentido se dominar em capacidade os outros modelos que exigem a mesma VRAM

    • O link do GitHub só diz que “o modelo quantizado dessa forma funciona muito bem em chat e tem vibes de frontier model, mas não foi amplamente testado”
      Isso quase não tem relação com como ele se comporta em workflow agentic. Já sabemos que, em quantização Q2, a qualidade muitas vezes cai bastante
      Se esse Flash quantizado mantiver qualidade e desempenho adequados em comprimentos de contexto maiores, preservando inclusive o que parece ser a principal funcionalidade da série V4, então ele pode virar um concorrente bastante razoável para modelos da mesma classe de weights, como o Qwen 3 Coder-Next 80B
  • Este lançamento da Mistral faz sentir de novo a distância entre os labs frontier e os outros players
    Antes da era agent, as diferenças entre modelos nem sempre eram tão claras, e cada um tinha seu próprio charme
    Agora eu não quero usar nada que fique abaixo dos modelos frontier. A diferença de capacidade é enorme, e escolher algo inferior tem um custo real de produtividade
    Sempre gostei de labs menores como a Mistral e especialmente a Cohere, mas faz tempo que nenhum lançamento das duas me empolga
    Ainda assim, uso mistral voxtral realtime todos os dias e ele é excelente

    • Discordo totalmente. Só um ano atrás a diferença de produtividade entre modelos frontier e non-frontier era muito maior
      E nem se fala em dois anos atrás
    • Em tarefas não agentic, não há um vencedor claramente óbvio entre Gemini, ChatGPT e Claude. Numa interface simples de chatbot, é meio apples to oranges
      Mas o Claude Code é consideravelmente melhor que o Codex, e o Codex é claramente melhor que o Gemini-cli
      Nesse contexto, não é surpreendente que o Claude Code seja muito melhor que modelos non-frontier em coding agentic. Em tarefas agentic especializadas, ele também é consideravelmente melhor que outros modelos frontier
    • Dizer que não quer usar nada abaixo de frontier é um julgamento bem ingênuo e equivocado
      Na maioria das tarefas, incluindo coding complexo, é difícil distinguir a diferença entre modelos frontier e modelos como o GPT-4.1
      Para notar diferença, você precisa realmente focar em aspectos como janela de contexto, tool calling ou características específicas dos passos de reasoning
      Além disso, modelos frontier adotam uma abordagem de brute force para entregar resultados, o que torna o custo de execução muito maior. Não só no valor que aparece na fatura, mas também no tempo de espera até sair qualquer resposta
      Nem vou entrar no assunto dos modelos locais
  • A Mistral parece estar jogando o jogo de longo prazo aqui. Modelos menores, custo mais baixo e desempenho geralmente bom o suficiente

  • É ok, mas nada de especial. Ainda assim, notícia de modelo que não seja dos EUA nem da China continua sendo boa notícia

    • Acho que esse é o nível de referência da Europa
  • É engraçado que agora 128B seja considerado Medium
    Teve uma época em que 355M parâmetros no GPT-2 eram considerados medium

    • O GPT-2 1.5B foi considerado perigoso demais para ser lançado publicamente
      Talvez essa avaliação estivesse certa