- O MiniMax-M1 é o primeiro modelo de raciocínio em larga escala com atenção híbrida open-weight do mundo
- Com uma estrutura híbrida MoE de 456 bilhões de parâmetros e um mecanismo de Lightning Attention, ele se destaca no processamento de contextos longos
- Com treinamento baseado em RL e a adoção do algoritmo CISPO, consegue resolver diversos problemas com eficiência
- Em benchmarks, comparado a modelos existentes como DeepSeek-R1 e Qwen3-235B, mostrou desempenho superior em engenharia de software complexa, uso de ferramentas e entradas longas
- Com diversos ambientes de inferência, ferramentas de suporte, API e chatbot, tem alto valor de uso como base para agentes de modelos de linguagem da próxima geração
Visão geral do projeto open source MiniMax-M1
- O MiniMax-M1 é o primeiro modelo de raciocínio em larga escala com atenção híbrida open-weight do mundo, demonstrando vantagens fortes e aplicabilidade prática em comparação com modelos comerciais e abertos existentes
- Combina uma arquitetura híbrida Mixture-of-Experts (MoE) em larga escala com o mecanismo Lightning Attention, sendo otimizado para contexto longo, raciocínio complexo e resolução de problemas em ambientes de software
- Suporta com eficiência contexto longo (até 1 milhão de tokens) e reduz drasticamente o custo computacional em teste (25% dos FLOPs do DeepSeek-R1 no padrão de 100K)
- Com tecnologia RL de ponta, o novo algoritmo CISPO e o design de atenção híbrida, maximiza tanto a escalabilidade quanto a eficiência de raciocínio
1. Visão geral do modelo
- O MiniMax-M1 adota uma arquitetura híbrida Mixture-of-Experts (MoE) e Lightning Attention
- Foi desenvolvido com base no seu antecessor MiniMax-Text-01 (456 bilhões de parâmetros, 45,9 bilhões de parâmetros ativados por token)
- Suporta comprimento de contexto de 1 milhão de tokens (8 vezes o tamanho de contexto do DeepSeek R1)
- O Lightning Attention reduz drasticamente o custo computacional em teste (25% em relação ao DeepSeek R1)
- É adequado para tarefas que exigem entradas longas e raciocínio complexo
- Foi treinado em uma ampla gama de problemas, incluindo raciocínio matemático por RL em larga escala e engenharia de software do mundo real
- Apresenta um framework próprio de escalonamento de RL do MiniMax-M1
- Técnica CISPO: introduz um algoritmo de clipping de pesos de importance sampling superior aos métodos de RL existentes
- Com base em atenção híbrida, reforça a eficiência e a escalabilidade do RL
- Foi treinado e lançado em duas variantes de budget de pensamento de 40K e 80K
- Em engenharia de software, uso de ferramentas e tarefas de contexto longo, mostrou desempenho excepcional em comparação com modelos abertos de alto nível como DeepSeek-R1 e Qwen3-235B
- Fornece a base para construir agentes de modelos de linguagem de próxima geração voltados à resolução de desafios do mundo real
2. Avaliação (Evaluation)
Principais pontos dos resultados de benchmark
- Nível próximo ao estado da arte em matemática, código, engenharia de software e contexto longo
- Alcançou pontuações geralmente mais altas que outros modelos abertos, com competitividade especialmente diferenciada em benchmarks de software (SWE-bench) e contexto longo
- Exemplos de métricas de destaque
- SWE-bench: 56.0 (M1-80k) / 34.4 (Qwen3) / 49.2 (DeepSeek R1)
- OpenAI-MRCR (128k): 73.4 (M1-80k) / 27.7 (Qwen3) / 35.8 (DeepSeek R1)
- Mostra solidez em tarefas relevantes para desenvolvimento de software, como LiveCodeBench e FullStackBench
- Ambiente de execução: avaliado com temperature 1.0 e top_p 0.95
- Para benchmarks como SWE-bench e TAU-bench, a avaliação foi feita com procedimentos e configurações próprias (ex.: localização em duas etapas por arquivo, sem uso de embedding)
3. Guia de uso do modelo MiniMax-M1
Configurações recomendadas para melhor desempenho
3.1. Parâmetros de inferência
- Temperature: 1.0
- Top_p: 0.95
Essa combinação oferece um ambiente que garante ao mesmo tempo diversidade textual e consistência lógica
3.2. Prompt de sistema
- Tarefas gerais: "You are a helpful assistant."
- Desenvolvimento web: apresenta prompts especializados para tarefas complexas de páginas web, como geração de código com UI integrada
- Raciocínio matemático: resolver passo a passo e inserir a resposta final em \boxed{}
4. Guia de implantação
- Os modelos MiniMax-M1-40k e MiniMax-M1-80k podem ser baixados no HuggingFace
- Em serviços reais, recomenda-se implantação baseada em vLLM
- Adequado para servir modelos em larga escala, com gerenciamento eficiente de memória, excelente processamento em lote e otimização de desempenho
- Também há suporte para implantação separada baseada em Transformers
5. Chamada de função (interface funcional)
- O MiniMax-M1 oferece suporte a chamada de função
- Quando funções externas forem necessárias, gera automaticamente os parâmetros em formato estruturado
- Disponibiliza um guia de chamada de função
6. Chatbot & API
- MiniMax Chatbot: oferece uma interface de chat que inclui até busca online
- API: oferece API online para desenvolvedores e ferramentas como o MiniMax MCP Server para uso por desenvolvedores
- Inclui síntese de vídeo, imagem e voz com IA, além de clonagem de voz
1 comentários
Opiniões do Hacker News
Caso alguém esteja se perguntando o que é preciso para rodar isso, são necessárias 8 H200 de 141GB, com custo na faixa de 250 mil dólares
discussão no github / informações de preço no eBay
Ao que tudo indica, esta semana é a "launch week" da MiniMax
Na segunda anunciaram o M1, e na terça o Hailuo 2
notícias sobre modelos chineses
Ainda não está claro se esse tipo de anúncio vai continuar ao longo da semana inteira, e por enquanto a empresa é mais conhecida por LLMs e modelos de vídeo
Os anúncios oficiais podem ser acompanhados no X da MiniMax (antigo Twitter)
Além disso, o relatório técnico do MiniMax M1 também é útil
PDF do relatório técnico
Não é um modelo open-weight SOTA, mas faz afirmações bem interessantes e ousadas sobre lightning attention e uma variação de GRPO (CISPO)
(não tenho nenhuma relação com a empresa, só estou compartilhando informações que encontrei)
Ao ver na arXiv a frase "We publicly release MiniMax-M1 at this https url", gostei da empresa por ter sido uma liberação real de código, e não só um repositório vazio de fachada
Minha opinião
Se alguém tiver especialistas confiáveis ou pessoas que fazem discussões interessantes sobre essa área, gostaria de recomendações
E também planeja abrir capital em breve na bolsa de Hong Kong (HKEX)
artigo relacionado
Embora isso não esteja explicitado na página oficial, a MiniMax é uma empresa chinesa
ver na Wikipédia
Seria bom se dessem nomes melhores para esse tipo de modelo
Parece nome de processador de Mac Studio
O nome vem daquele famoso algoritmo clássico de IA
No artigo está escrito: "In our attention design, a transformer block with softmax attention follows every seven transnormer blocks (Qin et al., 2022a) with lightning attention"
Ou seja, 87,5% do conjunto é linear attention, e 12,5% é full attention
Na prática, o termo 'linear attention' é meio confuso
softmax attention é um mecanismo de roteamento de informação, e ao calcular o token k, ele recebe informação de 1 até k, mas isso precisa passar por canais de tamanho fixo
Já linear attention só tem um 'banco de registradores' de tamanho fixo em cada layer
Fora o fato de ser compatível com computação layer-at-once, não há muito de notável para que isso seja chamado de attention de verdade
Há comentários de que a MiniMax está alimentando rumores de IPO
artigo relacionado
Se treinaram algo dessa escala sem infraestrutura de nuvem ocidental, fico curioso sobre como é o pipeline de processamento de tokens
referência no xcancel