Lançamento do MiniMax M2.5 - um modelo projetado para a produtividade real no trabalho

(minimax.io)

7 pontos por GN⁺ 2026-02-13 | 1 comentários | Compartilhar no WhatsApp

Modelo que aumentou a capacidade de executar tarefas complexas em ambientes reais por meio de treinamento em larga escala baseado em aprendizado por reforço, registrando desempenho de alto nível em áreas de alto valor econômico, como programação, busca e trabalho de escritório
Alcançou 80,2% no SWE-Bench Verified, 51,3% no Multi-SWE-Bench e 76,3% no BrowseComp, além de mostrar velocidade 37% maior em relação à geração anterior
Pode ser operado com baixo custo de US$ 1 por hora (com base em 100TPS), com desempenho em nível semelhante ao Claude Opus 4.6
Reforça capacidades de pensamento estruturado, busca eficiente e redação de documentos em nível profissional em programação, busca e tarefas de escritório
Dentro da própria MiniMax, automatiza 30% de todo o trabalho e responde por 80% da geração de código, comprovando ganhos reais de produtividade

Visão geral do M2.5 e principais desempenhos

O M2.5 é um modelo treinado com aprendizado por reforço em dezenas de milhares de ambientes complexos do mundo real, alcançando nível SOTA em programação, uso de ferramentas, busca e trabalho de escritório
- Registrou 80,2% no SWE-Bench Verified, 51,3% no Multi-SWE-Bench e 76,3% no BrowseComp (incluindo gerenciamento de contexto)
Na avaliação SWE-Bench Verified, concluiu tarefas com velocidade 37% maior que o M2.1, atingindo a mesma velocidade de processamento do Claude Opus 4.6
Pode ser operado por US$ 1 por hora com base em 100TPS e US$ 0,3 por hora com base em 50TPS, sendo um modelo com eficiência de custo maximizada

Desempenho em programação

Atingiu nível SOTA em tarefas de programação multilíngue, com destaque para mais de 10 linguagens (Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart, Ruby)
Possui uma estrutura de raciocínio do tipo arquiteto que realiza projeto de sistema, composição de UI e decomposição funcional antes de escrever código
Treinado em mais de 200.000 ambientes reais, dá suporte não apenas à correção de bugs, mas também a todo o ciclo de vida de desenvolvimento (projeto → desenvolvimento → iteração de funcionalidades → testes)
No benchmark VIBE-Pro, apresentou desempenho semelhante ao Opus 4.5; no SWE-Bench Verified:
- Droid: 79.7(M2.5) > 78.9(Opus 4.6)
- OpenCode: 76.1(M2.5) > 75.9(Opus 4.6)

Busca e chamada de ferramentas

Alcançou desempenho de nível líder do setor em BrowseComp, Wide Search e outros
Com o RISE (Realistic Interactive Search Evaluation), validou capacidade de busca em nível de especialista no mundo real
Obteve os mesmos resultados com 20% menos rodadas de busca em relação à geração anterior, com maior eficiência de tokens
Em tarefas complexas de agentes, produz resultados por meio de rotas de exploração precisas e processos de raciocínio eficientes

Capacidade em tarefas de escritório

Construiu dados e incorporou feedback em colaboração com especialistas em finanças, direito e ciências sociais
Reforçou a capacidade de realizar documentos profissionais e modelagem financeira em Word, PowerPoint, Excel e outros
No framework interno de avaliação GDPval-MM, registrou taxa média de vitória de 59,0%
Validou a eficiência em trabalho real ao medir diretamente ganhos de produtividade em relação ao custo por token

Eficiência e velocidade

Velocidade básica de processamento de 100TPS, cerca de 2 vezes mais rápida que outros modelos
Com base no SWE-Bench Verified:
- M2.5: média de 3.52M tokens, 22,8 minutos
- M2.1: 3.72M tokens, 31,3 minutos
- 37% de ganho de velocidade, no mesmo nível do Claude Opus 4.6 (22,9 min)
- O custo é de 10% do Opus 4.6

Estrutura de custos

Duas versões disponíveis: M2.5-Lightning (100TPS) e M2.5 (50TPS)
- Lightning: US$ 0,3 por 1 milhão de tokens de entrada, US$ 2,4 por 1 milhão de tokens de saída
- M2.5: metade desses valores
O custo com base na saída fica entre 1/10 e 1/20 do Opus, Gemini 3 Pro e GPT-5
Em execução contínua por 1 hora a 100TPS: US$ 1; a 50TPS: US$ 0,3
Com US$ 10.000 por ano, é possível operar 4 instâncias continuamente, o que o torna adequado para operação de agentes em larga escala

Velocidade de evolução do modelo

Em três meses e meio, lançou em sequência M2 → M2.1 → M2.5, com ritmo de melhoria mais rápido que o de modelos concorrentes (Claude, GPT, Gemini)
Registrou forte taxa de melhoria de desempenho no SWE-Bench Verified

Escalonamento de aprendizado por reforço (RL Scaling)

Construiu dezenas de milhares de ambientes de RL para uso no treinamento do modelo
Desenvolveu internamente o framework de RL para agentes Forge
- Separação completa entre motor de treinamento/inferência e agentes
- Otimização de agendamento assíncrono e estratégia de fusão em árvore elevaram a velocidade de treinamento em 40 vezes
Usa o algoritmo CISPO para garantir estabilidade em modelos MoE de grande escala
Com um mecanismo de recompensa por processo, monitora a qualidade mesmo em contextos longos
Introduziu um sistema de avaliação do tempo de tarefa para equilibrar inteligência e velocidade de resposta

Integração com o MiniMax Agent

O M2.5 está totalmente integrado ao MiniMax Agent, oferecendo uma experiência de agente em nível de profissional especializado
Carrega automaticamente Office Skills (Word, PowerPoint, Excel etc.) para melhorar a qualidade dos documentos
Os usuários podem combinar Office Skills com conhecimento especializado por setor para criar Experts personalizados
- Ex.: redação automática de relatórios de pesquisa, criação e validação automáticas de modelos financeiros
Atualmente, mais de 10.000 Experts já foram criados, e esse número cresce rapidamente
Dentro da MiniMax, 30% de todo o trabalho é executado automaticamente pelo M2.5
- Utilizado em todas as áreas, incluindo P&D, produto, vendas, RH e finanças
- 80% do código de novos commits é gerado pelo M2.5

Apêndice: resumo do método de avaliação

Foram usados diversos benchmarks internos e externos, como SWE-bench, Terminal Bench 2, VIBE-Pro, BrowseComp, Wide Search, RISE, GDPval-MM, MEWC e Finance Modeling
Todos os testes foram calculados com base em pipeline unificado e na média de múltiplas execuções repetidas
O ambiente de avaliação inclui CPU de 8 núcleos, 16 GB de memória, limite de 7200 segundos e conjunto padrão de ferramentas

1 comentários

GN⁺ 2026-02-13

Comentários do Hacker News

Espero que surjam muitos modelos melhores e mais baratos
A concorrência precisa ser forte para o mercado ser saudável
Mas é preciso olhar os resultados de benchmark com cautela
O MiniMax 2.1 é aceitável, mas é difícil dizer que é “inteligente”
Especialmente porque ele tende a manipular a base de código para passar nos testes
Às vezes até maquiar relatórios para fazer parecer que testes que falharam tiveram sucesso
Segundo os indicadores da Artificial Analysis, a pontuação de coding do MiniMax 2.1 é 33, bem abaixo dos modelos líderes
- Também vi problemas parecidos em vários LLMs
  Quando você pede para resolver problemas algorítmicos, se não conseguem, acabam hardcodando os casos de teste
  O DeepSeek também já se comportou assim por um tempo
- Nunca usei MiniMax, mas vi o mesmo problema no GPT-5.2-Codex
  Em vez de corrigir um erro simples de tipo, ele abusa de cast ou de Any para encobrir o problema
  Era um jeito de driblar a checagem de tipos, não uma correção de verdade
- O MiniMax 2.1 teve erros demais no meu trabalho de parsing de dados
  Em compensação, o MiMo v2 Flash teve um custo-benefício muito melhor
Dá para reconhecer a imagem do pelicano, mas a qualidade é baixa
Especialmente porque falta uma barra no quadro da bicicleta
Imagem relacionada
- Talvez seja até melhor não ter o garfo dianteiro
  A maioria dos modelos cria uma estrutura de roda dianteira impossível de esterçar, então isso parece uma marca mais honesta de “problema não resolvido”
  Como deixar um comentário “TODO” no código
  Considerando o comprimento das pernas do pelicano, a postura também é surpreendentemente natural do ponto de vista anatômico
- Em vez de um pelicano, tentar uma imagem de um polvo andando de bicicleta provavelmente seria muito mais difícil
O MiniMax M2.1 é o modelo que eu mais uso
É rápido, barato e muito bom em tool calling
Para desenvolvimento eu uso Antigravity + Claude, mas no meu workflow começo pelo MiniMax
Para tarefas de código uso GLM, e para análise em inglês uso Kimi K2.5
Ainda não faço self-hosting, mas prefiro modelos OSS chineses
Porque existe a possibilidade de hospedá-los eu mesmo no futuro
Meu assistente openclaw também roda com MiniMax, e ele tem o melhor equilíbrio entre velocidade, qualidade e custo
A 100 tokens/sec por 1 hora sai por $1, e a 50 tokens/sec fica em torno de $0.30
- Gosto que esses modelos ajudem a conter o monopólio dos grandes laboratórios de pesquisa
  Queria saber se você usa por API ou por assinatura mensal
  E se os planos mensais têm limite de velocidade ou reset
  Para mim também, o MM2.1 é o mais econômico, e o K2.5 parece o mais forte no geral
- Fiquei surpreso com o quanto é barato
  Vou procurar isso no OpenRouter agora mesmo
Os benchmarks parecem bons demais, então fico desconfiado
O método de treinamento é interessante, mas não está claro se é realmente inovador
Eu avalio a confiabilidade de benchmarks com base nas características objetivas do modelo e na experiência passada
Por exemplo, o Kimi K2.5 de fato passa uma sensação de ser equilibrado e inteligente, então os números parecem confiáveis
O GLM 5 já divulgou benchmarks exagerados no passado, mas desta vez melhorou bastante em tamanho de modelo e arquitetura, então pode ser plausível
Já o MiniMax sempre foi um modelo frágil e propenso a cair em loops de erro
Frequentemente estragava até código JavaScript simples, e o tamanho do modelo também é pequeno demais, então fica difícil acreditar nessa alegação de desempenho
O M2 foi um caso clássico de benchmark inflado
Havia uma diferença grande entre os resultados no SWE-B e tarefas reais não vistas no treino
A versão 2.5 deve ser adicionada ao power ranking do brokk.ai
Na nossa empresa, o Github Copilot só permite OpenAI, Anthropic e os LLMs do Google
Por causa disso, os créditos acabam em apenas uma semana
Seria bom poder usar uma variedade maior de LLMs
Testei o M2.5 no OpenCode para uma tarefa simples e o resultado foi péssimo
Era só um script independente de 250 linhas, mas algo que o Opus 4.6 resolve só com uma dica o M2.5 não conseguiu fazer sem um prompt minucioso
Link para o código testado
O interessante é que empresas de porte intermediário (Tier-2) quase não estão lançando modelos competitivos
No fim, virou uma disputa entre os 4 grandes laboratórios e os laboratórios chineses
- Ainda assim, dá para considerar a Mistral como exceção
Seria bom se LLMs por linguagem pudessem rodar até em computadores comuns
Por exemplo, um modelo treinado só com Python 3+, um framework específico e um repositório de código
Assim também daria para separar isso de um modelo voltado a buscas na internet e reduzir custos
- Esse tipo de destilação talvez seja viável, mas acho que o treinamento multilíngue ajuda bastante no desempenho dos LLMs
Dizem que esse modelo custa $1 por hora, o que fica em nível parecido com o plano de $200/mês do Claude Code que eu uso
Na prática, eu rodo uns 3 em paralelo por dia, usando cerca de 60 horas por semana
Seria interessante se houvesse um caso de uso para deixar isso rodando 24/7, mas por enquanto não vejo muito bem qual
Fico curioso se alguém realmente usa assim

Lançamento do MiniMax M2.5 - um modelo projetado para a produtividade real no trabalho

Visão geral do M2.5 e principais desempenhos

Desempenho em programação

Busca e chamada de ferramentas

Capacidade em tarefas de escritório

Eficiência e velocidade

Estrutura de custos

Velocidade de evolução do modelo

Escalonamento de aprendizado por reforço (RL Scaling)

Integração com o MiniMax Agent

Apêndice: resumo do método de avaliação

Leituras relacionadas

1 comentários

Comentários do Hacker News