4 pontos por GN⁺ 2025-05-22 | 1 comentários | Compartilhar no WhatsApp
  • Devstral é um LLM agêntico para tarefas de engenharia de software, desenvolvido em colaboração entre a Mistral AI e a All Hands AI
  • No benchmark SWE-Bench Verified, alcançou 46,8% de desempenho, mais de 6% acima dos modelos open source anteriores
  • Apresenta desempenho superior ao de modelos concorrentes (Deepseek-V3, Qwen3 etc.) e de alguns modelos closed source (como GPT-4.1-mini)
  • Pode ser usado localmente até mesmo em uma RTX 4090 ou em um Mac com 32GB de RAM, sendo adequado para ambientes corporativos e copilots
  • Distribuído gratuitamente sob a licença Apache 2.0, pode ser usado e customizado imediatamente em diversas plataformas

Introdução ao Devstral

  • Devstral é um LLM agêntico (Agentic Large Language Model) para tarefas de engenharia de software, como escrever código, modificar código e resolver issues
  • Foi desenvolvido por meio de uma parceria entre a Mistral AI e a All Hands AI
  • O Devstral foi treinado para resolver issues reais do GitHub de forma prática e funciona com base em scaffolds de agentes de código, como OpenHands e SWE-Agent

Desempenho do Devstral no benchmark SWE-Bench Verified

  • O Devstral registrou 46,8% de pontuação no SWE-Bench Verified, superando em mais de 6 pontos percentuais o melhor modelo open source
  • Usando o mesmo scaffold de teste (OpenHands), também mostrou resultados superiores aos de modelos maiores, como Deepseek-V3-0324 (671B) e Qwen3 232B-A22B
  • Mesmo em ambientes de teste customizados, o Devstral apresentou desempenho melhor do que vários modelos closed source alternativos
    • Por exemplo, mostrou mais de 20% de precisão acima do mais recente GPT-4.1-mini

Versatilidade e aplicabilidade

  • O Devstral pode operar sem problemas até mesmo em uma RTX 4090 ou em um Mac com 32GB de RAM, o que o favorece para deploy local e uso on-device
  • Em plataformas como o OpenHands, pode se integrar a codebases locais para resolver issues rapidamente
  • Também é adequado para repositórios de código em ambientes corporativos que exigem proteção de privacidade
  • Pode ser aplicado em diversos ambientes de desenvolvimento, como copilots e plugins de IDE com agentes

Distribuição e uso

  • O Devstral é distribuído sob a licença Apache 2.0, permitindo que qualquer pessoa o use, customize e redistribua gratuitamente
  • Há guias de uso do modelo e tutoriais, e o download está disponível em várias plataformas, como HuggingFace, Ollama, Kaggle, Unsloth e LM Studio
  • Também está disponível na API oficial da Mistral com o nome devstral-small-2505, adotando a mesma política de preços de uso do Mistral Small 3.1
  • Em ambientes corporativos, caso seja necessário um nível avançado de customização, como fine-tuning especializado para codebases privadas, é possível entrar em contato

Planos futuros

  • O Devstral está atualmente na fase de research preview
  • No futuro, também está previsto o lançamento de modelos de coding agêntico em escala maior
  • Quem quiser saber mais sobre o uso do Devstral ou sobre os diversos modelos e soluções da Mistral pode entrar em contato pelos canais oficiais

1 comentários

 
GN⁺ 2025-05-22
Comentários no Hacker News
  • Ultimamente tenho olhado primeiro o tamanho do arquivo no Ollama, e descobri que este modelo fica na faixa de 14 GB; referência: https://ollama.com/library/devstral/tags. No Mac M2, normalmente é preciso cerca de 10% de memória a mais além do tamanho do arquivo do modelo, então isso tem me ajudado a verificar a folga de RAM e ver quais apps dá para manter abertos ao mesmo tempo. Modelos abaixo de 20 GB costumam não impactar muito o uso de outros programas. Estou bem animado com este modelo

    • Preciso de recomendações de software de desenvolvimento agentic que funcione bem com modelos locais. Já usei o Cursor, mas gostei menos do que esperava; na prática, alternar entre o editor e o ChatGPT pareceu melhor. Também tentei Localforge e aider, mas com modelos locais eles ficam um pouco lentos

    • Concordo totalmente. Subi este modelo localmente e fiquei com uma ótima impressão. Vi que ele lida bem até com código complicado de Ruby e rspec. Também pretendo testá-lo com o aider em cenários com contexto grande

  • A pontuação no SWE-Bench é muito alta para o tamanho de um modelo open source. 46,8% é mais alto que o o3-mini (com Agentless-lite) ou o Claude 3.6 (com AutoCodeRover), e só um pouco abaixo do Claude 3.6 com o scaffold exclusivo da Anthropic. Considerando que dá para rodar quase de graça, é um modelo realmente impressionante

    • Ou é “impressionante”, ou isso levanta a suspeita de que o benchmark não está fazendo seu papel

    • Talvez seja preciso confirmar se isso se refere ao Claude 3.7

  • Deixo uma referência para quem não tem placa de vídeo com 24 GB de RAM. Estou usando este modelo no Ollama, em um ambiente com 8 GB de RAM, para tarefas simples. Para janela de contexto grande e tarefas sensíveis a tempo, recomendo usar a API paga.

    • Compartilhando números detalhados como tempo total de execução, carregamento e taxa de avaliação de tokens:
      • Exemplo 1: 35 segundos, processando 6,27 tokens por segundo
      • Exemplo 2: 4 minutos e 44 segundos, processando 5,79 tokens por segundo
    • A sensação é de algo cerca de 20% mais lento do que chamadas via API. Acho que isso se deve à falta da GPU recomendada.
    • O desempenho em benchmark parece estranhamente bem ajustado para o tamanho, mas suspeito que isso venha de testes repetidos para otimizar especificamente para benchmark durante o desenvolvimento. Na minha visão, a maioria dos LLMs promovidos no setor de TI segue a mesma estratégia. No fim, “verificar que é utilizável sem gastar tempo testando” não deixa de ser um compromisso razoável
  • Não consigo confiar nos benchmarks apresentados. Ainda não usei diretamente, mas nos meus resultados os modelos da linha Mistral costumam ficar na parte de baixo, parecidos com Llama. Não espero desempenho real neste nível

    • Usei recentemente o modelo All Hands, e eles também parecem ser baseados em Mistral. Minha impressão é que não chega perto do Claude 3.7 Sonnet, mas passa uma sensação de boa estabilidade. Para uso como “assistente de pair programming com IA”, é perfeitamente utilizável, e até trabalho estrutural maior dá para fazer se você dividir as etapas

    • Eu também não confio muito. Acho que isso precisa ser testado na prática. Por exemplo, para mim o Qwen3 foi até uma regressão, e o GLM4 é o padrão atual. O modelo 70b cogito também é realmente muito bom, mas quase não é mencionado. Acho que a variação é grande conforme projeto, linguagem ou caso de uso. Mesmo assim, pretendo testar este modelo com certeza

  • Gosto do fato de ser licenciado em Apache 2.0. Em vez de uma licença com condições complexas de “open weights”, há termos de uso claros. Isso é uma vantagem

    • Vejo isso como uma força estratégica da Mistral. Para trabalhos moralmente aceitáveis, eu recomendaria usar Gemma 3. Para usos em que isso não se aplica, passa a existir a opção de escolher um LLM com licença Apache
  • Gostei da ideia de a UE arcar com o custo de criar este agente/modelo. Se ele realmente entregar o que promete, isso permitiria que a Mistral continuasse focada no seu trabalho e, do ponto de vista europeu, seria um uso inteligente do orçamento

    • Se meus impostos forem para desenvolver modelos com licença apache/mit, sou a favor. Pelo menos há um objetivo positivo em manter alternativas e conter o monopólio das big techs. No fim, isso é importante para evitar a dominância de poucas empresas gigantes

    • Na prática, a UE já investiu em construir supercomputadores para uso de startups de IA, e a Mistral participa desse programa como parceira

  • Descobri este modelo por acaso enquanto testava suporte a ferramentas no LLamaIndex. Estou experimentando vários modelos acoplados a uma solução própria de agentic coding, e foi uma surpresa ver este modelo aparecer justo quando eu estava prestes a aplicar a abordagem ReAct.

    • Só que, no meu sistema de agentes, este modelo só retorna “sem ferramenta”. Também tentei instruções explícitas em vários prompts de agente, no estilo “fazer a tarefa bar com a ferramenta foo”, mas ainda não consegui resolver. O ToolSpec é um objeto Pydantic padrão com anotações etc., e minha experiência com outros modelos é que eles costumam descobrir sozinhos como usar as ferramentas

    • Dá para forçar o esquema de ferramenta restringindo a saída. Com uma ajudinha, isso pode ser aplicado a praticamente qualquer modelo

  • Fico feliz em ver a Mistral voltando a lançar um modelo realmente open source. Continuo sentindo a necessidade de haver uma empresa de IA competitiva na Europa.

    • Os modelos novos da Mistral têm me impressionado. Uso o Le Chat Pro pago. Além disso, o Mistral Small também é realmente muito bom. Estou desenvolvendo uma startup com integração da Mistral
  • Gostaria de recomendações de modelos recentes para rodar localmente, ou informações relacionadas, para hardware mais fraco (por exemplo, MacBook Air). Queria saber de antemão quais modelos são “realmente utilizáveis” em cada configuração de máquina, sem precisar testar tudo. Também preciso decidir se vale manter sempre 2 ou 3 modelos por tarefa no Ollama. Apple Intelligence ainda não é a resposta

    • Como modelo geral otimizado para execução local, eu recomendaria o Gemma 3 ou o Mistral Small mais recente. No Windows, a VRAM costuma ser o gargalo de velocidade, mas nos Macs da série M a memória on-chip permite uso rápido. O tamanho de modelo que dá para rodar depende da RAM real disponível, descontando o que o macOS consome e o espaço necessário para outros aplicativos.

      • Para estimar memória por modelo, vale olhar o tamanho dos modelos quantizados oferecidos no HuggingFace e afins. Q4_K_M costuma ser uma boa referência padrão.
      • No caso do Devstral, são 14,3 GB, e ainda é preciso mais 1 a 8 GB para armazenar contexto adicional.
      • Exemplo:
        • MacBook Air 32 GB → Devstral (14,3 GB) + 4 GB, com cerca de 14 GB restantes para sistema/outros apps
        • MacBook Air 16 GB → Gemma 3 12B (7,3 GB) + 2 GB, com cerca de 7 GB livres
        • MacBook 8 GB → Gemma 3 4B (2,5 GB) + 1 GB, na prática não recomendado para uso real
    • Testar por conta própria é o mais eficaz. Se você conseguir acomodar o tamanho de cada modelo, dá para instalar e compilar facilmente o llama.cpp (https://github.com/ggml-org/llama.cpp), e o suporte a MacBook Air da série M é muito bom. Pessoalmente, uso mais o LMStudio (https://lmstudio.ai/). Ele tem uma interface fácil, no estilo ChatGPT ou Claude, e permite buscar/baixar modelos direto no programa. Só o LMStudio já basta para quem está começando; eu o uso com frequência em um MacBook Air M2

  • Estou curioso para saber como o desempenho deste modelo se compara, na prática, com LLMs hospedados, como o Claude 3.7

    • Na verdade, o caso de uso é totalmente diferente, então uma comparação direta não faz muito sentido