Mistral Medium 3.5

(mistral.ai)

1 pontos por GN⁺ 6 시간 전 | 1 comentários | Compartilhar no WhatsApp

O modelo denso 128B lida com instruction-following, reasoning e coding em um único conjunto de pesos e está disponível em public preview
Suporta janela de contexto de 256k e configuração de reasoning effort por solicitação, permitindo usar o mesmo modelo tanto para respostas curtas em chat quanto para execuções agentic complexas
As sessões de Vibe coding são executadas de forma assíncrona na nuvem e várias sessões podem rodar em paralelo; sessões locais da CLI podem ser teleportadas para a nuvem com history, task state e approval
O Work mode do Le Chat é um modo agentic baseado no Mistral Medium 3.5, que usa o contexto de connected tools, documents, mailboxes e calendars, e solicita aprovação explícita para tarefas sensíveis
O modelo passa a ser o modelo padrão do Le Chat e substitui o Devstral 2 no Vibe CLI; o preço da API é de $1.5 por 1 milhão de tokens de entrada e $7.5 por 1 milhão de tokens de saída

Lançamento do Mistral Medium 3.5

O codificador de visão foi treinado do zero para lidar com vários tamanhos de imagem e aspect ratios
Alcançou 77.6% no SWE-Bench Verified, superando modelos como Devstral 2 e Qwen3.5 397B A17B
No τ³-Telecom, marcou 91.4 e foca em múltiplas chamadas de ferramentas e na geração de structured output que pode ser consumida por código downstream

Agente remoto de coding Vibe

As sessões de coding agora são executadas de forma assíncrona na nuvem, permitindo que tarefas longas continuem sendo processadas enquanto o usuário está ausente
É possível executar várias sessões em paralelo, evitando que o desenvolvedor se torne um gargalo em cada etapa conduzida pelo agente
O agente em nuvem pode ser iniciado pelo Mistral Vibe CLI ou pelo Le Chat
Durante a execução, é possível acompanhar file diff, chamadas de ferramentas, estado de progresso e perguntas do agente
Sessões locais da CLI podem ser teleportadas para a nuvem, levando junto session history, task state e approval

Estrutura integrada ao fluxo de trabalho de desenvolvimento

O Vibe fica entre os sistemas que a equipe de desenvolvimento já usa, mantendo human-in-the-loop nos pontos necessários
No GitHub, ele se conecta a código e pull requests; no Linear e no Jira, a issues
O Sentry se conecta ao tratamento de incidentes, e apps como Slack e Teams ao reporting
Cada sessão de coding roda em um sandbox isolado e pode incluir edições amplas e instalações
Quando o trabalho termina, o agente pode abrir um pull request no GitHub e enviar notificações, para que o desenvolvedor revise o resultado em vez de cada keystroke

Tarefas de coding adequadas e execução no Le Chat

O agente remoto do Vibe é voltado para well-defined work que ainda exige julgamento do desenvolvedor, mas consome muito tempo
Entre as tarefas-alvo estão refatoração de módulos, geração de testes, upgrade de dependências, investigação de CI e correção de bugs
Workflows podem ser orquestrados no Mistral Studio para disponibilizar o Mistral Vibe no Le Chat
Esse recurso foi criado primeiro para o ambiente interno de coding e depois utilizado para enterprise customers
Agora é possível iniciar tarefas de coding pela web e executar várias delas em paralelo, sem ficar preso ao terminal local
As tarefas criadas no Le Chat são executadas no mesmo remote runtime usado pela CLI e pela web, retornando depois como branch concluída ou draft PR

Work mode do Le Chat

O Work mode é um modo agentic do Le Chat para lidar com tarefas complexas, impulsionado por um novo harness e pelo Mistral Medium 3.5
O agente se torna o próprio backend de execução do assistente, permitindo ao Le Chat ler e escrever, usar várias ferramentas em paralelo e conduzir projetos em várias etapas
Fluxos de trabalho entre ferramentas
- É possível colocar em dia emails, mensagens e calendário em uma única execução
- Dá para se preparar para reuniões com contexto dos participantes, notícias recentes e talking points obtidos das fontes
Pesquisa e síntese
- É possível pesquisar um tema na web, em documentos internos e em connected tools
- Também pode criar briefs ou relatórios estruturados que podem ser editados e depois exportados ou enviados
Caixa de entrada e trabalho em equipe
- É possível fazer triagem da inbox e redigir respostas
- A partir de discussões com a equipe e clientes, pode criar issues no Jira e enviar um summary para a equipe no Slack
- As sessões duram mais do que respostas normais de chat e podem continuar até a conclusão, passando por vários turns e tentativa e erro
- No Work mode, os connectors vêm ativados por padrão, em vez de serem escolhidos manualmente, permitindo acesso ao contexto de documents, mailboxes, calendars e outros sistemas
- Todas as ações do agente ficam visíveis, incluindo cada tool call e o thinking rationale
- Para tarefas sensíveis, como enviar mensagens, redigir documentos ou modificar dados, o Le Chat solicita aprovação explícita conforme as permissões

Disponibilidade e preços

O Mistral Medium 3.5 está disponível no Mistral Vibe e no Le Chat
Os remote coding agents e o Work mode do Le Chat são executados com o Mistral Medium 3.5 nos planos Pro, Team e Enterprise
O preço da API é de $1.5 por 1 milhão de tokens de entrada e $7.5 por 1 milhão de tokens de saída
Os open weights estão disponíveis no Hugging Face sob modified MIT license
Para prototipagem, ele é hospedado no endpoint acelerado por GPU da NVIDIA em build.nvidia.com
Também está disponível como NVIDIA NIM, um microserviço de inferência escalável e conteinerizado

1 comentários

GN⁺ 6 시간 전

Comentários no Hacker News

Não sei o que todo mundo nos comentários está vendo. Esse modelo não supera os outros, mas em relação ao tamanho é claramente competitivo
O GLM 5.1 é excelente, mas mesmo em Q4 precisa de cerca de 400GB, e o Kimi K2.5 também é bom, mas na quantização Q4 precisa de quase 600GB
Este modelo pode rodar em 70GB de VRAM com Q4, o que o aproxima mais do segmento consumidor. Já dá para comprar um Mac Studio com 128GB de RAM por algo em torno de 3.500 dólares
Não sei se quem é obcecado por Claude só usa o Opus, mas no plano Pro o Sonnet já era muito competente. Este modelo roda localmente, supera o Sonnet mais recente e não cobra extra nem bloqueia sua conta arbitrariamente porque existe um HERMES.md no repositório
A Mistral nunca foi realmente competitiva na frontier, mas talvez esse nem seja o papel que devemos esperar dela. Se for um modelo de Pareto que entrega 80% da frontier por 20% do custo/tamanho, já parece bom o bastante
- Quem se interessa por LLM local sabe que conseguir “rodar” um modelo e conseguir “rodar rápido” são critérios completamente diferentes
  Dá para executar modelos assim num Mac de 128GB, mas primeiro é preciso ver se o Q4 mantém qualidade suficiente. Cada modelo tem uma sensibilidade à quantização diferente, e a velocidade real também importa
  Em trabalhos assíncronos ou em segundo plano, a velocidade de processamento do prompt e de geração de tokens importa menos, mas muitos compradores de Mac Studio descobriram da pior forma que a responsividade não chega perto da de modelos hospedados em hardware de verdade na nuvem
  Para a maioria das pessoas que não tem uma exigência forte de processamento on-premise, talvez a melhor forma de usar esse modelo seja por um dos provedores hospedados no OpenRouter, pagando por token
  Disseram que quase todos os modelos open weight lançados este ano igualam ou superam o Sonnet, mas mesmo quando parecem claramente à frente nos benchmarks, na prática eu ainda não senti isso
- Eu não conhecia o HERMES.md, mas quem tiver curiosidade pode encontrar informações aqui https://github.com/anthropics/claude-code/issues/53262
- Antes de fevereiro eu conseguia usar o Opus High no plano Max sem problemas, mas agora só uso o Sonnet High, e ele é bastante competente
  Gostei da expressão Claude Pilled
- Dizer que “roda localmente e supera o Sonnet mais recente” não é verdade
  O benchmark é com F8_E4M3, e isso não roda em nenhum Mac
  O Sonnet tem 1M de contexto em tokens, mas este modelo tem 256k, e localmente há uma boa chance de nem isso funcionar direito
  O Sonnet é rápido mesmo pela rede, mas este modelo será bem mais lento
- Também não dá para esquecer o Qwen 35B A3B MoE. Ele tem desempenho melhor que este modelo em todos os indicadores, com custo de memória/compute muito menor
  É uma pena que os modelos open source fora da China pareçam estar pelo menos uma geração atrás
Sempre torço pela Mistral. Diversidade de modelos e de países importa
Este modelo parece uma base sólida para construir em cima, e espero que o 3.6/3.7 traga mais melhorias. Pelos benchmarks de computer use, o pipeline de visão parece ter espaço para melhorar, mas é só especulação
Vendo alguns resultados de benchmark diferentes, dá a sensação de que não copiaram logs de frontier e sim treinaram um modelo realmente independente. Isso também é muito importante
O fato de existir outra arquitetura de weights dentro de um modelo específico parece, por si só, uma vantagem do ponto de vista da arquitetura global do sistema
É bom para o mercado que a Mistral continue lançando modelos confiáveis
Para os compradores terem poder de negociação em preço e implantação, é preciso sair da estrutura em que se escolhe entre só duas empresas
Comparando com outros LLMs hospedados que testei, parece que só a Mistral usa headers de CSP bem rígidos
Se você pede para criar um site com bibliotecas JavaScript, o preview não funciona no Le Chat mesmo com canvas mode
Às vezes eu só quero testar um pouco pela web quando sai um release novo, mas isso é difícil sem pagar ou usar agent harness
Ele realmente é péssimo para desenhar SVG https://chat.mistral.ai/chat/23214adb-5530-4af9-bb47-90f5219...
- Talvez SVG não seja o melhor benchmark, mas combina com a minha experiência usando modelos antigos da Mistral no Mistral Vibe
  No Vibe, pedi ajuda para configurar um servidor MCP, e ele explicou com toda confiança que MCP era MineCraft Protocol, depois começou a procurar binários do Minecraft no computador
- Nunca quis, precisei ou esperei que um LLM desenhasse SVG
  Todos os modelos falham nisso, alguns só fracassam de um jeito mais divertido
Estou usando o mistral-medium-2508 para tarefas de transformação de texto e, no meu caso, ele dá resultados melhores que o mistral-large
Quero testar o novo modelo também, mas ele é bem mais caro e está sendo apresentado como modelo de coding/agentic, então não sei se a intenção é substituir o medium anterior
O mistral-medium-2508 custava $0.4/$2 por 1M tokens, e o mistral-medium-3.5 custa $1.5/$7.5
- Estou usando o Mistral Large em produção para processar grandes blocos de texto
  Ele entrega resultados quase no nível do Sonnet por 90% menos. Eu nunca usaria para código, mas para esse trabalho de análise de texto ele foi ótimo. Também foi muito melhor que os modelos chineses mais recentes
  Por isso eu estava esperando este lançamento, mas ele custa 5 vezes mais que o Mistral Large atual. Estou preocupado que encerrem o Large barato ao migrar os releases
O problema deste modelo é que o DeepSeek v4 Flash roda muito bem em quantização de 2 bits https://github.com/antirez/llama.cpp-deepseek-v4-flash
Num M3 Ultra ele faz 30 t/s na geração e 400 t/s no prefill, e num MacBook Pro M3 Max com 128GB também não fica muito mais lento
Junto com opencode/pi, ele funciona como um bom agente de coding e o tool calling também é muito estável. Essa velocidade é algo que um modelo dense de 120B jamais vai alcançar
Então ele precisa competir não só com modelos quantizados em 4 bits do mesmo porte, mas também com o DeepSeek v4 Flash em arquivo GGUF de 86GB, e do ponto de vista prático da inferência local não vai ser fácil ganhar
Ainda há melhorias de velocidade não commitadas, que devo dar push em breve. A árvore atual pode estar um pouco lenta, mas ainda assim é bem utilizável
Sou fã da Mistral e estou na Europa, mas há algo que não entendo. A Mistral abriu o caminho dos MoE open weight com o Mixtral, então por que agora está lançando um modelo dense consideravelmente grande?
Desse jeito, fica difícil competir de forma confiável tanto em inferência local quanto remota. O modelo está longe de SOTA e o custo de serving também não é barato
Modelos dense têm espaço na faixa de dezenas de bilhões de parâmetros, como o Qwen 3.6 27B, mas quando você vai para 5 vezes isso, só faz sentido se dominar em capacidade os outros modelos que exigem a mesma VRAM
- O link do GitHub só diz que “o modelo quantizado dessa forma funciona muito bem em chat e tem vibes de frontier model, mas não foi amplamente testado”
  Isso quase não tem relação com como ele se comporta em workflow agentic. Já sabemos que, em quantização Q2, a qualidade muitas vezes cai bastante
  Se esse Flash quantizado mantiver qualidade e desempenho adequados em comprimentos de contexto maiores, preservando inclusive o que parece ser a principal funcionalidade da série V4, então ele pode virar um concorrente bastante razoável para modelos da mesma classe de weights, como o Qwen 3 Coder-Next 80B
Este lançamento da Mistral faz sentir de novo a distância entre os labs frontier e os outros players
Antes da era agent, as diferenças entre modelos nem sempre eram tão claras, e cada um tinha seu próprio charme
Agora eu não quero usar nada que fique abaixo dos modelos frontier. A diferença de capacidade é enorme, e escolher algo inferior tem um custo real de produtividade
Sempre gostei de labs menores como a Mistral e especialmente a Cohere, mas faz tempo que nenhum lançamento das duas me empolga
Ainda assim, uso mistral voxtral realtime todos os dias e ele é excelente
- Discordo totalmente. Só um ano atrás a diferença de produtividade entre modelos frontier e non-frontier era muito maior
  E nem se fala em dois anos atrás
- Em tarefas não agentic, não há um vencedor claramente óbvio entre Gemini, ChatGPT e Claude. Numa interface simples de chatbot, é meio apples to oranges
  Mas o Claude Code é consideravelmente melhor que o Codex, e o Codex é claramente melhor que o Gemini-cli
  Nesse contexto, não é surpreendente que o Claude Code seja muito melhor que modelos non-frontier em coding agentic. Em tarefas agentic especializadas, ele também é consideravelmente melhor que outros modelos frontier
- Dizer que não quer usar nada abaixo de frontier é um julgamento bem ingênuo e equivocado
  Na maioria das tarefas, incluindo coding complexo, é difícil distinguir a diferença entre modelos frontier e modelos como o GPT-4.1
  Para notar diferença, você precisa realmente focar em aspectos como janela de contexto, tool calling ou características específicas dos passos de reasoning
  Além disso, modelos frontier adotam uma abordagem de brute force para entregar resultados, o que torna o custo de execução muito maior. Não só no valor que aparece na fatura, mas também no tempo de espera até sair qualquer resposta
  Nem vou entrar no assunto dos modelos locais
A Mistral parece estar jogando o jogo de longo prazo aqui. Modelos menores, custo mais baixo e desempenho geralmente bom o suficiente
É ok, mas nada de especial. Ainda assim, notícia de modelo que não seja dos EUA nem da China continua sendo boa notícia
- Acho que esse é o nível de referência da Europa
É engraçado que agora 128B seja considerado Medium
Teve uma época em que 355M parâmetros no GPT-2 eram considerados medium
- O GPT-2 1.5B foi considerado perigoso demais para ser lançado publicamente
  Talvez essa avaliação estivesse certa

Mistral Medium 3.5

Lançamento do Mistral Medium 3.5

Agente remoto de coding Vibe

Estrutura integrada ao fluxo de trabalho de desenvolvimento

Tarefas de coding adequadas e execução no Le Chat

Work mode do Le Chat

Fluxos de trabalho entre ferramentas

Pesquisa e síntese

Caixa de entrada e trabalho em equipe

Disponibilidade e preços

Leituras relacionadas

1 comentários

Comentários no Hacker News