Mistral Medium 3.5 é lançado
(mistral.ai)- Modelo 128B Dense que unifica execução de instruções, raciocínio e código em um único conjunto de pesos, com suporte a janela de contexto de 256k
- Permite ajustar o esforço de raciocínio por solicitação, cobrindo com um único modelo desde chats simples até tarefas agênticas complexas
- SWE-Bench Verified 77,6%, τ³-Telecom 91,4 pontos, superando Devstral 2 e Qwen3.5 397B A17B
- Novo treinamento do codificador de visão, permitindo lidar com tamanhos de imagem e proporções variáveis
- Com o agente remoto Vibe, sessões de programação podem ser executadas de forma assíncrona na nuvem, com várias sessões em paralelo e notificação ao concluir
- Pode ser iniciado via CLI ou Le Chat, e ao teletransportar uma sessão local para a nuvem, o histórico, estado e registros de aprovação são mantidos
- Cada sessão é executada em um sandbox isolado e, ao concluir, um PR no GitHub é criado automaticamente
- Integração com ferramentas de desenvolvimento existentes como GitHub, Linear, Jira, Sentry, Slack e Teams
- Indicado para tarefas repetitivas e bem definidas como refatoração de módulos, geração de testes, upgrade de dependências, investigação de CI e correção de bugs
- O modo Work do Le Chat (preview) usa simultaneamente várias ferramentas, como e-mail, calendário e mensagens, para concluir automaticamente tarefas de múltiplas etapas
- Conectores ativados por padrão, exibição de todas as chamadas de ferramentas e da justificativa de raciocínio, e solicitação de aprovação explícita para tarefas sensíveis
- Preço da API: US$ 1,5 por milhão de tokens de entrada e US$ 7,5 por milhão de tokens de saída
- Pesos abertos publicados sob licença MIT modificada, com possibilidade de self-hosting com no mínimo 4 GPUs
1 comentários
Comentários no Hacker News
Não sei o que todo mundo nos comentários está vendo. Esse modelo não supera os outros, mas em relação ao tamanho é claramente competitivo
O GLM 5.1 é excelente, mas mesmo em Q4 precisa de cerca de 400GB, e o Kimi K2.5 também é bom, mas na quantização Q4 precisa de quase 600GB
Este modelo pode rodar em 70GB de VRAM com Q4, o que o aproxima mais do segmento consumidor. Já dá para comprar um Mac Studio com 128GB de RAM por algo em torno de 3.500 dólares
Não sei se quem é obcecado por Claude só usa o Opus, mas no plano Pro o Sonnet já era muito competente. Este modelo roda localmente, supera o Sonnet mais recente e não cobra extra nem bloqueia sua conta arbitrariamente porque existe um HERMES.md no repositório
A Mistral nunca foi realmente competitiva na frontier, mas talvez esse nem seja o papel que devemos esperar dela. Se for um modelo de Pareto que entrega 80% da frontier por 20% do custo/tamanho, já parece bom o bastante
Dá para executar modelos assim num Mac de 128GB, mas primeiro é preciso ver se o Q4 mantém qualidade suficiente. Cada modelo tem uma sensibilidade à quantização diferente, e a velocidade real também importa
Em trabalhos assíncronos ou em segundo plano, a velocidade de processamento do prompt e de geração de tokens importa menos, mas muitos compradores de Mac Studio descobriram da pior forma que a responsividade não chega perto da de modelos hospedados em hardware de verdade na nuvem
Para a maioria das pessoas que não tem uma exigência forte de processamento on-premise, talvez a melhor forma de usar esse modelo seja por um dos provedores hospedados no OpenRouter, pagando por token
Disseram que quase todos os modelos open weight lançados este ano igualam ou superam o Sonnet, mas mesmo quando parecem claramente à frente nos benchmarks, na prática eu ainda não senti isso
Gostei da expressão Claude Pilled
O benchmark é com F8_E4M3, e isso não roda em nenhum Mac
O Sonnet tem 1M de contexto em tokens, mas este modelo tem 256k, e localmente há uma boa chance de nem isso funcionar direito
O Sonnet é rápido mesmo pela rede, mas este modelo será bem mais lento
É uma pena que os modelos open source fora da China pareçam estar pelo menos uma geração atrás
Sempre torço pela Mistral. Diversidade de modelos e de países importa
Este modelo parece uma base sólida para construir em cima, e espero que o 3.6/3.7 traga mais melhorias. Pelos benchmarks de computer use, o pipeline de visão parece ter espaço para melhorar, mas é só especulação
Vendo alguns resultados de benchmark diferentes, dá a sensação de que não copiaram logs de frontier e sim treinaram um modelo realmente independente. Isso também é muito importante
O fato de existir outra arquitetura de weights dentro de um modelo específico parece, por si só, uma vantagem do ponto de vista da arquitetura global do sistema
É bom para o mercado que a Mistral continue lançando modelos confiáveis
Para os compradores terem poder de negociação em preço e implantação, é preciso sair da estrutura em que se escolhe entre só duas empresas
Comparando com outros LLMs hospedados que testei, parece que só a Mistral usa headers de CSP bem rígidos
Se você pede para criar um site com bibliotecas JavaScript, o preview não funciona no Le Chat mesmo com canvas mode
Às vezes eu só quero testar um pouco pela web quando sai um release novo, mas isso é difícil sem pagar ou usar agent harness
Ele realmente é péssimo para desenhar SVG https://chat.mistral.ai/chat/23214adb-5530-4af9-bb47-90f5219...
No Vibe, pedi ajuda para configurar um servidor MCP, e ele explicou com toda confiança que MCP era MineCraft Protocol, depois começou a procurar binários do Minecraft no computador
Todos os modelos falham nisso, alguns só fracassam de um jeito mais divertido
Estou usando o mistral-medium-2508 para tarefas de transformação de texto e, no meu caso, ele dá resultados melhores que o mistral-large
Quero testar o novo modelo também, mas ele é bem mais caro e está sendo apresentado como modelo de coding/agentic, então não sei se a intenção é substituir o medium anterior
O mistral-medium-2508 custava $0.4/$2 por 1M tokens, e o mistral-medium-3.5 custa $1.5/$7.5
Ele entrega resultados quase no nível do Sonnet por 90% menos. Eu nunca usaria para código, mas para esse trabalho de análise de texto ele foi ótimo. Também foi muito melhor que os modelos chineses mais recentes
Por isso eu estava esperando este lançamento, mas ele custa 5 vezes mais que o Mistral Large atual. Estou preocupado que encerrem o Large barato ao migrar os releases
O problema deste modelo é que o DeepSeek v4 Flash roda muito bem em quantização de 2 bits https://github.com/antirez/llama.cpp-deepseek-v4-flash
Num M3 Ultra ele faz 30 t/s na geração e 400 t/s no prefill, e num MacBook Pro M3 Max com 128GB também não fica muito mais lento
Junto com opencode/pi, ele funciona como um bom agente de coding e o tool calling também é muito estável. Essa velocidade é algo que um modelo dense de 120B jamais vai alcançar
Então ele precisa competir não só com modelos quantizados em 4 bits do mesmo porte, mas também com o DeepSeek v4 Flash em arquivo GGUF de 86GB, e do ponto de vista prático da inferência local não vai ser fácil ganhar
Ainda há melhorias de velocidade não commitadas, que devo dar push em breve. A árvore atual pode estar um pouco lenta, mas ainda assim é bem utilizável
Sou fã da Mistral e estou na Europa, mas há algo que não entendo. A Mistral abriu o caminho dos MoE open weight com o Mixtral, então por que agora está lançando um modelo dense consideravelmente grande?
Desse jeito, fica difícil competir de forma confiável tanto em inferência local quanto remota. O modelo está longe de SOTA e o custo de serving também não é barato
Modelos dense têm espaço na faixa de dezenas de bilhões de parâmetros, como o Qwen 3.6 27B, mas quando você vai para 5 vezes isso, só faz sentido se dominar em capacidade os outros modelos que exigem a mesma VRAM
Isso quase não tem relação com como ele se comporta em workflow agentic. Já sabemos que, em quantização Q2, a qualidade muitas vezes cai bastante
Se esse Flash quantizado mantiver qualidade e desempenho adequados em comprimentos de contexto maiores, preservando inclusive o que parece ser a principal funcionalidade da série V4, então ele pode virar um concorrente bastante razoável para modelos da mesma classe de weights, como o Qwen 3 Coder-Next 80B
Este lançamento da Mistral faz sentir de novo a distância entre os labs frontier e os outros players
Antes da era agent, as diferenças entre modelos nem sempre eram tão claras, e cada um tinha seu próprio charme
Agora eu não quero usar nada que fique abaixo dos modelos frontier. A diferença de capacidade é enorme, e escolher algo inferior tem um custo real de produtividade
Sempre gostei de labs menores como a Mistral e especialmente a Cohere, mas faz tempo que nenhum lançamento das duas me empolga
Ainda assim, uso mistral voxtral realtime todos os dias e ele é excelente
E nem se fala em dois anos atrás
Mas o Claude Code é consideravelmente melhor que o Codex, e o Codex é claramente melhor que o Gemini-cli
Nesse contexto, não é surpreendente que o Claude Code seja muito melhor que modelos non-frontier em coding agentic. Em tarefas agentic especializadas, ele também é consideravelmente melhor que outros modelos frontier
Na maioria das tarefas, incluindo coding complexo, é difícil distinguir a diferença entre modelos frontier e modelos como o GPT-4.1
Para notar diferença, você precisa realmente focar em aspectos como janela de contexto, tool calling ou características específicas dos passos de reasoning
Além disso, modelos frontier adotam uma abordagem de brute force para entregar resultados, o que torna o custo de execução muito maior. Não só no valor que aparece na fatura, mas também no tempo de espera até sair qualquer resposta
Nem vou entrar no assunto dos modelos locais
A Mistral parece estar jogando o jogo de longo prazo aqui. Modelos menores, custo mais baixo e desempenho geralmente bom o suficiente
É ok, mas nada de especial. Ainda assim, notícia de modelo que não seja dos EUA nem da China continua sendo boa notícia
É engraçado que agora 128B seja considerado Medium
Teve uma época em que 355M parâmetros no GPT-2 eram considerados medium
Talvez essa avaliação estivesse certa