9 pontos por GN⁺ 2025-12-10 | 1 comentários | Compartilhar no WhatsApp
  • Devstral 2 é um modelo open source de código de próxima geração com 123B parâmetros, registrando 72,2% de desempenho no SWE-bench Verified e alcançando alta eficiência em relação aos modelos concorrentes
  • Devstral Small 2 tem 24B parâmetros e pode ser executado até em hardware de consumo, sendo distribuído sob a licença Apache 2.0
  • Mistral Vibe CLI é um agente de terminal open source baseado no Devstral, que permite explorar, modificar e executar código em linguagem natural
  • O Devstral 2 oferece até 7x mais eficiência de custo que o Claude Sonnet e, mesmo sendo 5x menor que o DeepSeek V3.2, mantém alto desempenho
  • É avaliado como uma ferramenta central para automação de código em larga escala e aceleração de inteligência distribuída no ecossistema open source

Visão geral do Devstral 2

  • O Devstral 2 é um modelo transformer denso de 123B parâmetros com suporte a uma janela de contexto de 256K
    • Alcança 72,2% de desempenho no SWE-bench Verified, ficando entre os modelos de pesos abertos com melhor desempenho
    • Foi lançado sob uma licença MIT modificada, estabelecendo um novo padrão para agentes open source de código
  • O Devstral Small 2 registra 68,0% no SWE-bench Verified, mantendo nível semelhante ao de modelos até 5x maiores
    • Pode ser executado localmente em hardware de consumo, oferecendo inferência rápida e loops de feedback personalizados
    • Suporta entrada de imagem e pode operar agentes multimodais
  • O Devstral 2 (123B) e o Small 2 (24B) são, respectivamente, 5x e 28x menores que o DeepSeek V3.2, e 8x e 41x menores que o Kimi K2
    • A arquitetura compacta dos modelos facilita a implantação mesmo em hardware limitado

Suporte a fluxos de trabalho de nível de produção

  • O Devstral 2 oferece suporte à exploração de codebases e ao gerenciamento de alterações em múltiplos arquivos, preservando contexto em nível de arquitetura
    • Inclui rastreamento de dependências de framework, detecção de falhas e tentativas automáticas de repetição
    • Pode realizar tarefas de correção de bugs e modernização de sistemas legados
  • Há suporte a fine-tuning voltado para linguagens específicas ou grandes codebases corporativas
  • Em uma comparação por avaliação humana com DeepSeek V3.2 e Claude Sonnet 4.5, obteve vantagem sobre o DeepSeek (taxa de vitória de 42,8%)
    • Ainda assim, permanece uma diferença de desempenho em relação ao Claude Sonnet 4.5
  • A Cline avaliou o Devstral 2 como um “modelo open source de código de altíssimo nível” e afirmou que a taxa de sucesso em chamadas de ferramentas é semelhante à de modelos fechados
  • A Kilo Code anunciou ter registrado uso de 17B tokens nas primeiras 24 horas após o lançamento

Mistral Vibe CLI

  • Um assistente de programação em CLI open source baseado no Devstral, que permite explorar, modificar e executar código por meio de comandos em linguagem natural
    • Lançado sob a licença Apache 2.0
    • Pode ser usado no terminal ou em IDEs (com integração via Agent Communication Protocol)
  • Principais recursos
    • Contexto com reconhecimento de projeto: faz varredura automática da estrutura de arquivos e do estado do Git
    • Referências inteligentes: autocompletar com @, execução de comandos com ! e alteração de configurações com comandos de barra
    • Orquestração de múltiplos arquivos: raciocínio em nível de arquitetura com compreensão da codebase completa
    • Suporte a histórico persistente, autocompletar e customização de temas
  • Permite configurar o fluxo de trabalho com recursos como execução de scripts, alternância de aprovação automática, definição de modelos locais e controle de permissões

Implantação e uso

  • O Devstral 2 é oferecido atualmente por meio de API gratuita, com cobrança futura prevista de US$ 0,40/US$ 2,00 por entrada/saída
    • O Devstral Small 2 terá custo de US$ 0,10/US$ 0,30
  • Pode ser usado integrado a ferramentas abertas de agentes como Kilo Code e Cline
  • O uso direto do Vibe CLI é possível por meio da extensão do Zed IDE
  • O Devstral 2 exige GPUs de nível datacenter (mínimo de 4×H100) e pode ser testado em build.nvidia.com
    • O Devstral Small 2 pode ser executado até em ambiente com GPU única ou CPU
    • Suporte ao NVIDIA NIM previsto
  • Para melhor desempenho, são recomendados a configuração de temperatura em 0.2 e as melhores práticas do Vibe CLI

Comunidade e recrutamento

  • A Mistral incentiva o compartilhamento de projetos e a participação com feedback usando Devstral 2, Small 2 e Vibe CLI
    • É possível interagir pelos canais X/Twitter, Discord e GitHub
  • A empresa está contratando para pesquisa open source e desenvolvimento de interfaces, com candidaturas pela página oficial de carreiras da Mistral

1 comentários

 
GN⁺ 2025-12-10
Opiniões do Hacker News
  • Instalei o modelo da Mistral com o comando llm install llm-mistral e, depois de llm mistral refresh, gerei uma imagem SVG com llm -m mistral/devstral-2512 "Generate an SVG of a pelican riding a bicycle"
    O resultado pode ser visto neste link. Para um modelo de 123B, o resultado é bem bom
    O ID do modelo pode não estar correto, então perguntei diretamente à Mistral

    • Agora existe a possibilidade de que prompts como “gere um SVG de um pelicano andando de bicicleta” já estejam incluídos nos dados de treinamento. É bom como benchmark, mas acho que também são necessários testes aleatórios para evitar benchmaxxing
    • Fiquei curioso se esse modelo talvez consiga recriar o site do Space Jam de 1996
    • SVG é código, mas não é código executável, então pode ser um pouco enganoso para avaliar um modelo de programação. Mesmo assim, o resultado é impressionante
    • Queria saber de onde veio a ferramenta llm
    • Parece que ele pulou a bicicleta e fez um upgrade para uma bela motocicleta
  • A Mistral está cerca de um ano atrás do SOTA, mas está melhorando em velocidade e competitividade de preço. Ainda não é suficiente para o meu uso, mas está alcançando rápido. Vejo como modelos concorrentes o Haiku 4.5, Gemini 3 Pro Fast e o novo modelo leve da OpenAI (GPT 5.1 Codex Max Extra High Fast?)

    • Dizem que o nome do novo modelo da OpenAI é Garlic, mas será que vão lançar mesmo com esse nome?
    • Em comparação com o Deepseek-v3.2, a capacidade geral é bem inferior, e o preço é 5 vezes maior
  • Executei o Devstral 2 na CLI para revisar um projeto pessoal de 500KB
    Ele entendeu corretamente a funcionalidade do programa, corrigiu 2 bugs, melhorou o código e adicionou 2 pequenos recursos.
    Criou um bug novo, mas corrigiu imediatamente assim que foi apontado.
    As mudanças no código foram mínimas e não houve reescrita desnecessária.
    Ainda é cedo para tirar uma conclusão, mas parece ser um modelo bastante competente

    • Gostaria de saber em qual hardware isso foi executado
  • Estou pensando em testar o Devstral por conta própria. O modelo anterior também era bom para programação com agente local.
    Mas o nome “Vibe CLI” passa uma impressão leve demais.
    ‘Vibe-coding’ é divertido para experimentar os limites do modelo, mas não serve para trabalho profissional que exige controle de qualidade.
    Hoje em dia todo mundo está obcecado por vibe-coding, mas fico me perguntando onde estão as ferramentas LLM profissionais para ampliar a inteligência humana

    • O novo agente de CLI mistral-vibe foi escrito em Python e oferece suporte ao protocolo ACP do Zed
    • Como muitos apps são criados como serviços temporários para objetivos de negócio de curto prazo, agentic coding é útil o suficiente para esses “serviços de papelão”. Mas é inadequado para infraestrutura de dados industrial
    • O Brokk que estamos criando é exatamente esse tipo de ferramenta profissional. Veja a apresentação neste post do blog
    • Também houve a reação: “Então você quer dizer que o Claude Code não é suficiente?”
    • Há quem diga que, agora, mais importante do que a qualidade do código é a qualidade da especificação e dos testes
  • Estou pensando em uma configuração de hardware de US$ 5.000 para rodar o Devstral Small 2.
    Tenho curiosidade sobre a velocidade de processamento de tokens em Mac 32GB, RTX 4090, DGX Spark, RTX 5090, GPU externa (Oculink) etc.

    • US$ 5.000 é um orçamento meio incerto, então recomendo alugar GPU na nuvem.
      Se quiser alto desempenho, RTX 5090; compatibilidade com CUDA, DGX Spark; para modelos grandes, Strix Halo 128GB ou M3 Ultra são adequados.
      É melhor procurar benchmarks reais no r/LocalLLaMA
    • A configuração com dual 3090 (24GB×2) é atualmente a melhor em custo-benefício.
      Se quiser ir além, também existe servidor com 8×V100 (32GB×8, 512GB RAM, NVLink). Só que precisa de energia 240V
    • Eu uso uma combinação de 7900XTX + 128GB DDR4. E não gosto da NVIDIA
  • O nome “Vibe CLI” faz parecer uma ferramenta leve demais.
    Eu uso Claude Code com frequência, mas não chamo isso de vibe-coding

    • Esse nome provavelmente é um meme de marketing. Algo como: “empresa francesa lança ferramenta para ‘codar na vibe’!” para atrair atenção em matérias
    • Acho que programar com LLM é, por natureza, mais adequado para tarefas leves
    • Se você entrega o código para o Claude, isso já é vibe-coding
    • Talvez seja simplesmente um nome bem-humorado
  • Fico feliz por ser uma CLI que não usa React.
    O Vibe-cli foi feito com o framework Textual

    • Mas, por ser baseado em Python, me preocupo se a velocidade de saída será lenta. Já tive um problema parecido com o Aider no passado
  • Se a Mistral for 10 vezes mais barata por token do que o Claude, isso é bem atraente.
    Desde que o desempenho não seja 10 vezes pior, já é um bom ponto

    • O GPT 5-mini também é muito mais barato que o Haiku, mas na prática usar foi um desperdício de tempo.
      Na empresa usamos Haiku, Sonnet e Opus, mas no orçamento pessoal eu uso o minimax m2
    • Se for 10 vezes mais barato e 2 vezes mais lento, no fim pode sair mais caro por desperdício de tokens
    • Como até os modelos SOTA atuais ainda não têm desempenho perfeito em programação, não vejo motivo para focar tanto em otimização de preço
  • Criei um pacote AUR para o Mistral-vibe
    Link do pacote

  • Se você usa Nix, pode executar diretamente com o comando abaixo

    nix run github:numtide/llm-agents.nix#mistral-vibe
    

    O repositório é atualizado diariamente

    • Acho que é um projeto realmente incrível. Obrigado por compartilhar