1 pontos por GN⁺ 6 시간 전 | 1 comentários | Compartilhar no WhatsApp
  • O modelo denso 128B lida com instruction-following, reasoning e coding em um único conjunto de pesos e está disponível em public preview
  • Suporta janela de contexto de 256k e configuração de reasoning effort por solicitação, permitindo usar o mesmo modelo tanto para respostas curtas em chat quanto para execuções agentic complexas
  • As sessões de Vibe coding são executadas de forma assíncrona na nuvem e várias sessões podem rodar em paralelo; sessões locais da CLI podem ser teleportadas para a nuvem com history, task state e approval
  • O Work mode do Le Chat é um modo agentic baseado no Mistral Medium 3.5, que usa o contexto de connected tools, documents, mailboxes e calendars, e solicita aprovação explícita para tarefas sensíveis
  • O modelo passa a ser o modelo padrão do Le Chat e substitui o Devstral 2 no Vibe CLI; o preço da API é de $1.5 por 1 milhão de tokens de entrada e $7.5 por 1 milhão de tokens de saída

Lançamento do Mistral Medium 3.5

  • O codificador de visão foi treinado do zero para lidar com vários tamanhos de imagem e aspect ratios
  • Alcançou 77.6% no SWE-Bench Verified, superando modelos como Devstral 2 e Qwen3.5 397B A17B
  • No τ³-Telecom, marcou 91.4 e foca em múltiplas chamadas de ferramentas e na geração de structured output que pode ser consumida por código downstream

Agente remoto de coding Vibe

  • As sessões de coding agora são executadas de forma assíncrona na nuvem, permitindo que tarefas longas continuem sendo processadas enquanto o usuário está ausente
  • É possível executar várias sessões em paralelo, evitando que o desenvolvedor se torne um gargalo em cada etapa conduzida pelo agente
  • O agente em nuvem pode ser iniciado pelo Mistral Vibe CLI ou pelo Le Chat
  • Durante a execução, é possível acompanhar file diff, chamadas de ferramentas, estado de progresso e perguntas do agente
  • Sessões locais da CLI podem ser teleportadas para a nuvem, levando junto session history, task state e approval

Estrutura integrada ao fluxo de trabalho de desenvolvimento

  • O Vibe fica entre os sistemas que a equipe de desenvolvimento já usa, mantendo human-in-the-loop nos pontos necessários
  • No GitHub, ele se conecta a código e pull requests; no Linear e no Jira, a issues
  • O Sentry se conecta ao tratamento de incidentes, e apps como Slack e Teams ao reporting
  • Cada sessão de coding roda em um sandbox isolado e pode incluir edições amplas e instalações
  • Quando o trabalho termina, o agente pode abrir um pull request no GitHub e enviar notificações, para que o desenvolvedor revise o resultado em vez de cada keystroke

Tarefas de coding adequadas e execução no Le Chat

  • O agente remoto do Vibe é voltado para well-defined work que ainda exige julgamento do desenvolvedor, mas consome muito tempo
  • Entre as tarefas-alvo estão refatoração de módulos, geração de testes, upgrade de dependências, investigação de CI e correção de bugs
  • Workflows podem ser orquestrados no Mistral Studio para disponibilizar o Mistral Vibe no Le Chat
  • Esse recurso foi criado primeiro para o ambiente interno de coding e depois utilizado para enterprise customers
  • Agora é possível iniciar tarefas de coding pela web e executar várias delas em paralelo, sem ficar preso ao terminal local
  • As tarefas criadas no Le Chat são executadas no mesmo remote runtime usado pela CLI e pela web, retornando depois como branch concluída ou draft PR

Work mode do Le Chat

  • O Work mode é um modo agentic do Le Chat para lidar com tarefas complexas, impulsionado por um novo harness e pelo Mistral Medium 3.5
  • O agente se torna o próprio backend de execução do assistente, permitindo ao Le Chat ler e escrever, usar várias ferramentas em paralelo e conduzir projetos em várias etapas
  • Fluxos de trabalho entre ferramentas

    • É possível colocar em dia emails, mensagens e calendário em uma única execução
    • Dá para se preparar para reuniões com contexto dos participantes, notícias recentes e talking points obtidos das fontes
  • Pesquisa e síntese

    • É possível pesquisar um tema na web, em documentos internos e em connected tools
    • Também pode criar briefs ou relatórios estruturados que podem ser editados e depois exportados ou enviados
  • Caixa de entrada e trabalho em equipe

    • É possível fazer triagem da inbox e redigir respostas
    • A partir de discussões com a equipe e clientes, pode criar issues no Jira e enviar um summary para a equipe no Slack
    • As sessões duram mais do que respostas normais de chat e podem continuar até a conclusão, passando por vários turns e tentativa e erro
    • No Work mode, os connectors vêm ativados por padrão, em vez de serem escolhidos manualmente, permitindo acesso ao contexto de documents, mailboxes, calendars e outros sistemas
    • Todas as ações do agente ficam visíveis, incluindo cada tool call e o thinking rationale
    • Para tarefas sensíveis, como enviar mensagens, redigir documentos ou modificar dados, o Le Chat solicita aprovação explícita conforme as permissões

Disponibilidade e preços

  • O Mistral Medium 3.5 está disponível no Mistral Vibe e no Le Chat
  • Os remote coding agents e o Work mode do Le Chat são executados com o Mistral Medium 3.5 nos planos Pro, Team e Enterprise
  • O preço da API é de $1.5 por 1 milhão de tokens de entrada e $7.5 por 1 milhão de tokens de saída
  • Os open weights estão disponíveis no Hugging Face sob modified MIT license
  • Para prototipagem, ele é hospedado no endpoint acelerado por GPU da NVIDIA em build.nvidia.com
  • Também está disponível como NVIDIA NIM, um microserviço de inferência escalável e conteinerizado

1 comentários

 
GN⁺ 6 시간 전
Comentários no Hacker News
  • Não sei o que todo mundo nos comentários está vendo. Esse modelo não supera os outros, mas em relação ao tamanho é claramente competitivo
    O GLM 5.1 é excelente, mas mesmo em Q4 precisa de cerca de 400GB, e o Kimi K2.5 também é bom, mas na quantização Q4 precisa de quase 600GB
    Este modelo pode rodar em 70GB de VRAM com Q4, o que o aproxima mais do segmento consumidor. Já dá para comprar um Mac Studio com 128GB de RAM por algo em torno de 3.500 dólares
    Não sei se quem é obcecado por Claude só usa o Opus, mas no plano Pro o Sonnet já era muito competente. Este modelo roda localmente, supera o Sonnet mais recente e não cobra extra nem bloqueia sua conta arbitrariamente porque existe um HERMES.md no repositório
    A Mistral nunca foi realmente competitiva na frontier, mas talvez esse nem seja o papel que devemos esperar dela. Se for um modelo de Pareto que entrega 80% da frontier por 20% do custo/tamanho, já parece bom o bastante

    • Quem se interessa por LLM local sabe que conseguir “rodar” um modelo e conseguir “rodar rápido” são critérios completamente diferentes
      Dá para executar modelos assim num Mac de 128GB, mas primeiro é preciso ver se o Q4 mantém qualidade suficiente. Cada modelo tem uma sensibilidade à quantização diferente, e a velocidade real também importa
      Em trabalhos assíncronos ou em segundo plano, a velocidade de processamento do prompt e de geração de tokens importa menos, mas muitos compradores de Mac Studio descobriram da pior forma que a responsividade não chega perto da de modelos hospedados em hardware de verdade na nuvem
      Para a maioria das pessoas que não tem uma exigência forte de processamento on-premise, talvez a melhor forma de usar esse modelo seja por um dos provedores hospedados no OpenRouter, pagando por token
      Disseram que quase todos os modelos open weight lançados este ano igualam ou superam o Sonnet, mas mesmo quando parecem claramente à frente nos benchmarks, na prática eu ainda não senti isso
    • Eu não conhecia o HERMES.md, mas quem tiver curiosidade pode encontrar informações aqui https://github.com/anthropics/claude-code/issues/53262
    • Antes de fevereiro eu conseguia usar o Opus High no plano Max sem problemas, mas agora só uso o Sonnet High, e ele é bastante competente
      Gostei da expressão Claude Pilled
    • Dizer que “roda localmente e supera o Sonnet mais recente” não é verdade
      O benchmark é com F8_E4M3, e isso não roda em nenhum Mac
      O Sonnet tem 1M de contexto em tokens, mas este modelo tem 256k, e localmente há uma boa chance de nem isso funcionar direito
      O Sonnet é rápido mesmo pela rede, mas este modelo será bem mais lento
    • Também não dá para esquecer o Qwen 35B A3B MoE. Ele tem desempenho melhor que este modelo em todos os indicadores, com custo de memória/compute muito menor
      É uma pena que os modelos open source fora da China pareçam estar pelo menos uma geração atrás
  • Sempre torço pela Mistral. Diversidade de modelos e de países importa
    Este modelo parece uma base sólida para construir em cima, e espero que o 3.6/3.7 traga mais melhorias. Pelos benchmarks de computer use, o pipeline de visão parece ter espaço para melhorar, mas é só especulação
    Vendo alguns resultados de benchmark diferentes, dá a sensação de que não copiaram logs de frontier e sim treinaram um modelo realmente independente. Isso também é muito importante
    O fato de existir outra arquitetura de weights dentro de um modelo específico parece, por si só, uma vantagem do ponto de vista da arquitetura global do sistema

  • É bom para o mercado que a Mistral continue lançando modelos confiáveis
    Para os compradores terem poder de negociação em preço e implantação, é preciso sair da estrutura em que se escolhe entre só duas empresas

  • Comparando com outros LLMs hospedados que testei, parece que só a Mistral usa headers de CSP bem rígidos
    Se você pede para criar um site com bibliotecas JavaScript, o preview não funciona no Le Chat mesmo com canvas mode
    Às vezes eu só quero testar um pouco pela web quando sai um release novo, mas isso é difícil sem pagar ou usar agent harness
    Ele realmente é péssimo para desenhar SVG https://chat.mistral.ai/chat/23214adb-5530-4af9-bb47-90f5219...

    • Talvez SVG não seja o melhor benchmark, mas combina com a minha experiência usando modelos antigos da Mistral no Mistral Vibe
      No Vibe, pedi ajuda para configurar um servidor MCP, e ele explicou com toda confiança que MCP era MineCraft Protocol, depois começou a procurar binários do Minecraft no computador
    • Nunca quis, precisei ou esperei que um LLM desenhasse SVG
      Todos os modelos falham nisso, alguns só fracassam de um jeito mais divertido
  • Estou usando o mistral-medium-2508 para tarefas de transformação de texto e, no meu caso, ele dá resultados melhores que o mistral-large
    Quero testar o novo modelo também, mas ele é bem mais caro e está sendo apresentado como modelo de coding/agentic, então não sei se a intenção é substituir o medium anterior
    O mistral-medium-2508 custava $0.4/$2 por 1M tokens, e o mistral-medium-3.5 custa $1.5/$7.5

    • Estou usando o Mistral Large em produção para processar grandes blocos de texto
      Ele entrega resultados quase no nível do Sonnet por 90% menos. Eu nunca usaria para código, mas para esse trabalho de análise de texto ele foi ótimo. Também foi muito melhor que os modelos chineses mais recentes
      Por isso eu estava esperando este lançamento, mas ele custa 5 vezes mais que o Mistral Large atual. Estou preocupado que encerrem o Large barato ao migrar os releases
  • O problema deste modelo é que o DeepSeek v4 Flash roda muito bem em quantização de 2 bits https://github.com/antirez/llama.cpp-deepseek-v4-flash
    Num M3 Ultra ele faz 30 t/s na geração e 400 t/s no prefill, e num MacBook Pro M3 Max com 128GB também não fica muito mais lento
    Junto com opencode/pi, ele funciona como um bom agente de coding e o tool calling também é muito estável. Essa velocidade é algo que um modelo dense de 120B jamais vai alcançar
    Então ele precisa competir não só com modelos quantizados em 4 bits do mesmo porte, mas também com o DeepSeek v4 Flash em arquivo GGUF de 86GB, e do ponto de vista prático da inferência local não vai ser fácil ganhar
    Ainda há melhorias de velocidade não commitadas, que devo dar push em breve. A árvore atual pode estar um pouco lenta, mas ainda assim é bem utilizável
    Sou fã da Mistral e estou na Europa, mas há algo que não entendo. A Mistral abriu o caminho dos MoE open weight com o Mixtral, então por que agora está lançando um modelo dense consideravelmente grande?
    Desse jeito, fica difícil competir de forma confiável tanto em inferência local quanto remota. O modelo está longe de SOTA e o custo de serving também não é barato
    Modelos dense têm espaço na faixa de dezenas de bilhões de parâmetros, como o Qwen 3.6 27B, mas quando você vai para 5 vezes isso, só faz sentido se dominar em capacidade os outros modelos que exigem a mesma VRAM

    • O link do GitHub só diz que “o modelo quantizado dessa forma funciona muito bem em chat e tem vibes de frontier model, mas não foi amplamente testado”
      Isso quase não tem relação com como ele se comporta em workflow agentic. Já sabemos que, em quantização Q2, a qualidade muitas vezes cai bastante
      Se esse Flash quantizado mantiver qualidade e desempenho adequados em comprimentos de contexto maiores, preservando inclusive o que parece ser a principal funcionalidade da série V4, então ele pode virar um concorrente bastante razoável para modelos da mesma classe de weights, como o Qwen 3 Coder-Next 80B
  • Este lançamento da Mistral faz sentir de novo a distância entre os labs frontier e os outros players
    Antes da era agent, as diferenças entre modelos nem sempre eram tão claras, e cada um tinha seu próprio charme
    Agora eu não quero usar nada que fique abaixo dos modelos frontier. A diferença de capacidade é enorme, e escolher algo inferior tem um custo real de produtividade
    Sempre gostei de labs menores como a Mistral e especialmente a Cohere, mas faz tempo que nenhum lançamento das duas me empolga
    Ainda assim, uso mistral voxtral realtime todos os dias e ele é excelente

    • Discordo totalmente. Só um ano atrás a diferença de produtividade entre modelos frontier e non-frontier era muito maior
      E nem se fala em dois anos atrás
    • Em tarefas não agentic, não há um vencedor claramente óbvio entre Gemini, ChatGPT e Claude. Numa interface simples de chatbot, é meio apples to oranges
      Mas o Claude Code é consideravelmente melhor que o Codex, e o Codex é claramente melhor que o Gemini-cli
      Nesse contexto, não é surpreendente que o Claude Code seja muito melhor que modelos non-frontier em coding agentic. Em tarefas agentic especializadas, ele também é consideravelmente melhor que outros modelos frontier
    • Dizer que não quer usar nada abaixo de frontier é um julgamento bem ingênuo e equivocado
      Na maioria das tarefas, incluindo coding complexo, é difícil distinguir a diferença entre modelos frontier e modelos como o GPT-4.1
      Para notar diferença, você precisa realmente focar em aspectos como janela de contexto, tool calling ou características específicas dos passos de reasoning
      Além disso, modelos frontier adotam uma abordagem de brute force para entregar resultados, o que torna o custo de execução muito maior. Não só no valor que aparece na fatura, mas também no tempo de espera até sair qualquer resposta
      Nem vou entrar no assunto dos modelos locais
  • A Mistral parece estar jogando o jogo de longo prazo aqui. Modelos menores, custo mais baixo e desempenho geralmente bom o suficiente

  • É ok, mas nada de especial. Ainda assim, notícia de modelo que não seja dos EUA nem da China continua sendo boa notícia

    • Acho que esse é o nível de referência da Europa
  • É engraçado que agora 128B seja considerado Medium
    Teve uma época em que 355M parâmetros no GPT-2 eram considerados medium

    • O GPT-2 1.5B foi considerado perigoso demais para ser lançado publicamente
      Talvez essa avaliação estivesse certa