- Modelo que aumentou a capacidade de executar tarefas complexas em ambientes reais por meio de treinamento em larga escala baseado em aprendizado por reforço, registrando desempenho de alto nível em áreas de alto valor econômico, como programação, busca e trabalho de escritório
- Alcançou 80,2% no SWE-Bench Verified, 51,3% no Multi-SWE-Bench e 76,3% no BrowseComp, além de mostrar velocidade 37% maior em relação à geração anterior
- Pode ser operado com baixo custo de US$ 1 por hora (com base em 100TPS), com desempenho em nível semelhante ao Claude Opus 4.6
- Reforça capacidades de pensamento estruturado, busca eficiente e redação de documentos em nível profissional em programação, busca e tarefas de escritório
- Dentro da própria MiniMax, automatiza 30% de todo o trabalho e responde por 80% da geração de código, comprovando ganhos reais de produtividade
Visão geral do M2.5 e principais desempenhos
- O M2.5 é um modelo treinado com aprendizado por reforço em dezenas de milhares de ambientes complexos do mundo real, alcançando nível SOTA em programação, uso de ferramentas, busca e trabalho de escritório
- Registrou 80,2% no SWE-Bench Verified, 51,3% no Multi-SWE-Bench e 76,3% no BrowseComp (incluindo gerenciamento de contexto)
- Na avaliação SWE-Bench Verified, concluiu tarefas com velocidade 37% maior que o M2.1, atingindo a mesma velocidade de processamento do Claude Opus 4.6
- Pode ser operado por US$ 1 por hora com base em 100TPS e US$ 0,3 por hora com base em 50TPS, sendo um modelo com eficiência de custo maximizada
Desempenho em programação
- Atingiu nível SOTA em tarefas de programação multilíngue, com destaque para mais de 10 linguagens (Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart, Ruby)
- Possui uma estrutura de raciocínio do tipo arquiteto que realiza projeto de sistema, composição de UI e decomposição funcional antes de escrever código
- Treinado em mais de 200.000 ambientes reais, dá suporte não apenas à correção de bugs, mas também a todo o ciclo de vida de desenvolvimento (projeto → desenvolvimento → iteração de funcionalidades → testes)
- No benchmark VIBE-Pro, apresentou desempenho semelhante ao Opus 4.5; no SWE-Bench Verified:
- Droid: 79.7(M2.5) > 78.9(Opus 4.6)
- OpenCode: 76.1(M2.5) > 75.9(Opus 4.6)
Busca e chamada de ferramentas
- Alcançou desempenho de nível líder do setor em BrowseComp, Wide Search e outros
- Com o RISE (Realistic Interactive Search Evaluation), validou capacidade de busca em nível de especialista no mundo real
- Obteve os mesmos resultados com 20% menos rodadas de busca em relação à geração anterior, com maior eficiência de tokens
- Em tarefas complexas de agentes, produz resultados por meio de rotas de exploração precisas e processos de raciocínio eficientes
Capacidade em tarefas de escritório
- Construiu dados e incorporou feedback em colaboração com especialistas em finanças, direito e ciências sociais
- Reforçou a capacidade de realizar documentos profissionais e modelagem financeira em Word, PowerPoint, Excel e outros
- No framework interno de avaliação GDPval-MM, registrou taxa média de vitória de 59,0%
- Validou a eficiência em trabalho real ao medir diretamente ganhos de produtividade em relação ao custo por token
Eficiência e velocidade
- Velocidade básica de processamento de 100TPS, cerca de 2 vezes mais rápida que outros modelos
- Com base no SWE-Bench Verified:
- M2.5: média de 3.52M tokens, 22,8 minutos
- M2.1: 3.72M tokens, 31,3 minutos
- 37% de ganho de velocidade, no mesmo nível do Claude Opus 4.6 (22,9 min)
- O custo é de 10% do Opus 4.6
Estrutura de custos
- Duas versões disponíveis: M2.5-Lightning (100TPS) e M2.5 (50TPS)
- Lightning: US$ 0,3 por 1 milhão de tokens de entrada, US$ 2,4 por 1 milhão de tokens de saída
- M2.5: metade desses valores
- O custo com base na saída fica entre 1/10 e 1/20 do Opus, Gemini 3 Pro e GPT-5
- Em execução contínua por 1 hora a 100TPS: US$ 1; a 50TPS: US$ 0,3
- Com US$ 10.000 por ano, é possível operar 4 instâncias continuamente, o que o torna adequado para operação de agentes em larga escala
Velocidade de evolução do modelo
- Em três meses e meio, lançou em sequência M2 → M2.1 → M2.5, com ritmo de melhoria mais rápido que o de modelos concorrentes (Claude, GPT, Gemini)
- Registrou forte taxa de melhoria de desempenho no SWE-Bench Verified
Escalonamento de aprendizado por reforço (RL Scaling)
- Construiu dezenas de milhares de ambientes de RL para uso no treinamento do modelo
- Desenvolveu internamente o framework de RL para agentes Forge
- Separação completa entre motor de treinamento/inferência e agentes
- Otimização de agendamento assíncrono e estratégia de fusão em árvore elevaram a velocidade de treinamento em 40 vezes
- Usa o algoritmo CISPO para garantir estabilidade em modelos MoE de grande escala
- Com um mecanismo de recompensa por processo, monitora a qualidade mesmo em contextos longos
- Introduziu um sistema de avaliação do tempo de tarefa para equilibrar inteligência e velocidade de resposta
Integração com o MiniMax Agent
- O M2.5 está totalmente integrado ao MiniMax Agent, oferecendo uma experiência de agente em nível de profissional especializado
- Carrega automaticamente Office Skills (Word, PowerPoint, Excel etc.) para melhorar a qualidade dos documentos
- Os usuários podem combinar Office Skills com conhecimento especializado por setor para criar Experts personalizados
- Ex.: redação automática de relatórios de pesquisa, criação e validação automáticas de modelos financeiros
- Atualmente, mais de 10.000 Experts já foram criados, e esse número cresce rapidamente
- Dentro da MiniMax, 30% de todo o trabalho é executado automaticamente pelo M2.5
- Utilizado em todas as áreas, incluindo P&D, produto, vendas, RH e finanças
- 80% do código de novos commits é gerado pelo M2.5
Apêndice: resumo do método de avaliação
- Foram usados diversos benchmarks internos e externos, como SWE-bench, Terminal Bench 2, VIBE-Pro, BrowseComp, Wide Search, RISE, GDPval-MM, MEWC e Finance Modeling
- Todos os testes foram calculados com base em pipeline unificado e na média de múltiplas execuções repetidas
- O ambiente de avaliação inclui CPU de 8 núcleos, 16 GB de memória, limite de 7200 segundos e conjunto padrão de ferramentas
1 comentários
Comentários do Hacker News
Espero que surjam muitos modelos melhores e mais baratos
A concorrência precisa ser forte para o mercado ser saudável
Mas é preciso olhar os resultados de benchmark com cautela
O MiniMax 2.1 é aceitável, mas é difícil dizer que é “inteligente”
Especialmente porque ele tende a manipular a base de código para passar nos testes
Às vezes até maquiar relatórios para fazer parecer que testes que falharam tiveram sucesso
Segundo os indicadores da Artificial Analysis, a pontuação de coding do MiniMax 2.1 é 33, bem abaixo dos modelos líderes
Quando você pede para resolver problemas algorítmicos, se não conseguem, acabam hardcodando os casos de teste
O DeepSeek também já se comportou assim por um tempo
Em vez de corrigir um erro simples de tipo, ele abusa de cast ou de Any para encobrir o problema
Era um jeito de driblar a checagem de tipos, não uma correção de verdade
Em compensação, o MiMo v2 Flash teve um custo-benefício muito melhor
Dá para reconhecer a imagem do pelicano, mas a qualidade é baixa
Especialmente porque falta uma barra no quadro da bicicleta
Imagem relacionada
A maioria dos modelos cria uma estrutura de roda dianteira impossível de esterçar, então isso parece uma marca mais honesta de “problema não resolvido”
Como deixar um comentário “TODO” no código
Considerando o comprimento das pernas do pelicano, a postura também é surpreendentemente natural do ponto de vista anatômico
O MiniMax M2.1 é o modelo que eu mais uso
É rápido, barato e muito bom em tool calling
Para desenvolvimento eu uso Antigravity + Claude, mas no meu workflow começo pelo MiniMax
Para tarefas de código uso GLM, e para análise em inglês uso Kimi K2.5
Ainda não faço self-hosting, mas prefiro modelos OSS chineses
Porque existe a possibilidade de hospedá-los eu mesmo no futuro
Meu assistente openclaw também roda com MiniMax, e ele tem o melhor equilíbrio entre velocidade, qualidade e custo
A 100 tokens/sec por 1 hora sai por $1, e a 50 tokens/sec fica em torno de $0.30
Queria saber se você usa por API ou por assinatura mensal
E se os planos mensais têm limite de velocidade ou reset
Para mim também, o MM2.1 é o mais econômico, e o K2.5 parece o mais forte no geral
Vou procurar isso no OpenRouter agora mesmo
Os benchmarks parecem bons demais, então fico desconfiado
O método de treinamento é interessante, mas não está claro se é realmente inovador
Eu avalio a confiabilidade de benchmarks com base nas características objetivas do modelo e na experiência passada
Por exemplo, o Kimi K2.5 de fato passa uma sensação de ser equilibrado e inteligente, então os números parecem confiáveis
O GLM 5 já divulgou benchmarks exagerados no passado, mas desta vez melhorou bastante em tamanho de modelo e arquitetura, então pode ser plausível
Já o MiniMax sempre foi um modelo frágil e propenso a cair em loops de erro
Frequentemente estragava até código JavaScript simples, e o tamanho do modelo também é pequeno demais, então fica difícil acreditar nessa alegação de desempenho
O M2 foi um caso clássico de benchmark inflado
Havia uma diferença grande entre os resultados no SWE-B e tarefas reais não vistas no treino
A versão 2.5 deve ser adicionada ao power ranking do brokk.ai
Na nossa empresa, o Github Copilot só permite OpenAI, Anthropic e os LLMs do Google
Por causa disso, os créditos acabam em apenas uma semana
Seria bom poder usar uma variedade maior de LLMs
Testei o M2.5 no OpenCode para uma tarefa simples e o resultado foi péssimo
Era só um script independente de 250 linhas, mas algo que o Opus 4.6 resolve só com uma dica o M2.5 não conseguiu fazer sem um prompt minucioso
Link para o código testado
O interessante é que empresas de porte intermediário (Tier-2) quase não estão lançando modelos competitivos
No fim, virou uma disputa entre os 4 grandes laboratórios e os laboratórios chineses
Seria bom se LLMs por linguagem pudessem rodar até em computadores comuns
Por exemplo, um modelo treinado só com Python 3+, um framework específico e um repositório de código
Assim também daria para separar isso de um modelo voltado a buscas na internet e reduzir custos
Dizem que esse modelo custa $1 por hora, o que fica em nível parecido com o plano de $200/mês do Claude Code que eu uso
Na prática, eu rodo uns 3 em paralelo por dia, usando cerca de 60 horas por semana
Seria interessante se houvesse um caso de uso para deixar isso rodando 24/7, mas por enquanto não vejo muito bem qual
Fico curioso se alguém realmente usa assim