MiniMax-M1 open-weight, modelo de raciocínio com atenção híbrida em larga escala

(github.com/MiniMax-AI)

5 pontos por GN⁺ 2025-06-19 | 1 comentários | Compartilhar no WhatsApp

O MiniMax-M1 é o primeiro modelo de raciocínio em larga escala com atenção híbrida open-weight do mundo
Com uma estrutura híbrida MoE de 456 bilhões de parâmetros e um mecanismo de Lightning Attention, ele se destaca no processamento de contextos longos
Com treinamento baseado em RL e a adoção do algoritmo CISPO, consegue resolver diversos problemas com eficiência
Em benchmarks, comparado a modelos existentes como DeepSeek-R1 e Qwen3-235B, mostrou desempenho superior em engenharia de software complexa, uso de ferramentas e entradas longas
Com diversos ambientes de inferência, ferramentas de suporte, API e chatbot, tem alto valor de uso como base para agentes de modelos de linguagem da próxima geração

Visão geral do projeto open source MiniMax-M1

O MiniMax-M1 é o primeiro modelo de raciocínio em larga escala com atenção híbrida open-weight do mundo, demonstrando vantagens fortes e aplicabilidade prática em comparação com modelos comerciais e abertos existentes
Combina uma arquitetura híbrida Mixture-of-Experts (MoE) em larga escala com o mecanismo Lightning Attention, sendo otimizado para contexto longo, raciocínio complexo e resolução de problemas em ambientes de software
Suporta com eficiência contexto longo (até 1 milhão de tokens) e reduz drasticamente o custo computacional em teste (25% dos FLOPs do DeepSeek-R1 no padrão de 100K)
Com tecnologia RL de ponta, o novo algoritmo CISPO e o design de atenção híbrida, maximiza tanto a escalabilidade quanto a eficiência de raciocínio

1. Visão geral do modelo

O MiniMax-M1 adota uma arquitetura híbrida Mixture-of-Experts (MoE) e Lightning Attention
Foi desenvolvido com base no seu antecessor MiniMax-Text-01 (456 bilhões de parâmetros, 45,9 bilhões de parâmetros ativados por token)
Suporta comprimento de contexto de 1 milhão de tokens (8 vezes o tamanho de contexto do DeepSeek R1)
O Lightning Attention reduz drasticamente o custo computacional em teste (25% em relação ao DeepSeek R1)
É adequado para tarefas que exigem entradas longas e raciocínio complexo
Foi treinado em uma ampla gama de problemas, incluindo raciocínio matemático por RL em larga escala e engenharia de software do mundo real
Apresenta um framework próprio de escalonamento de RL do MiniMax-M1
- Técnica CISPO: introduz um algoritmo de clipping de pesos de importance sampling superior aos métodos de RL existentes
- Com base em atenção híbrida, reforça a eficiência e a escalabilidade do RL
Foi treinado e lançado em duas variantes de budget de pensamento de 40K e 80K
Em engenharia de software, uso de ferramentas e tarefas de contexto longo, mostrou desempenho excepcional em comparação com modelos abertos de alto nível como DeepSeek-R1 e Qwen3-235B
Fornece a base para construir agentes de modelos de linguagem de próxima geração voltados à resolução de desafios do mundo real

2. Avaliação (Evaluation)

Principais pontos dos resultados de benchmark

Nível próximo ao estado da arte em matemática, código, engenharia de software e contexto longo
Alcançou pontuações geralmente mais altas que outros modelos abertos, com competitividade especialmente diferenciada em benchmarks de software (SWE-bench) e contexto longo
Exemplos de métricas de destaque
- SWE-bench: 56.0 (M1-80k) / 34.4 (Qwen3) / 49.2 (DeepSeek R1)
- OpenAI-MRCR (128k): 73.4 (M1-80k) / 27.7 (Qwen3) / 35.8 (DeepSeek R1)
- Mostra solidez em tarefas relevantes para desenvolvimento de software, como LiveCodeBench e FullStackBench
Ambiente de execução: avaliado com temperature 1.0 e top_p 0.95
Para benchmarks como SWE-bench e TAU-bench, a avaliação foi feita com procedimentos e configurações próprias (ex.: localização em duas etapas por arquivo, sem uso de embedding)

3. Guia de uso do modelo MiniMax-M1

Configurações recomendadas para melhor desempenho

3.1. Parâmetros de inferência

Temperature: 1.0
Top_p: 0.95
Essa combinação oferece um ambiente que garante ao mesmo tempo diversidade textual e consistência lógica

3.2. Prompt de sistema

Tarefas gerais: "You are a helpful assistant."
Desenvolvimento web: apresenta prompts especializados para tarefas complexas de páginas web, como geração de código com UI integrada
Raciocínio matemático: resolver passo a passo e inserir a resposta final em \boxed{}

4. Guia de implantação

Os modelos MiniMax-M1-40k e MiniMax-M1-80k podem ser baixados no HuggingFace
Em serviços reais, recomenda-se implantação baseada em vLLM
- Adequado para servir modelos em larga escala, com gerenciamento eficiente de memória, excelente processamento em lote e otimização de desempenho
Também há suporte para implantação separada baseada em Transformers

5. Chamada de função (interface funcional)

O MiniMax-M1 oferece suporte a chamada de função
- Quando funções externas forem necessárias, gera automaticamente os parâmetros em formato estruturado
- Disponibiliza um guia de chamada de função

6. Chatbot & API

MiniMax Chatbot: oferece uma interface de chat que inclui até busca online
API: oferece API online para desenvolvedores e ferramentas como o MiniMax MCP Server para uso por desenvolvedores
- Inclui síntese de vídeo, imagem e voz com IA, além de clonagem de voz

1 comentários

GN⁺ 2025-06-19

Opiniões do Hacker News

Caso alguém esteja se perguntando o que é preciso para rodar isso, são necessárias 8 H200 de 141GB, com custo na faixa de 250 mil dólares
discussão no github / informações de preço no eBay
- Fico me perguntando se não daria para rodar em um Mac Studio de 512GB, já que 8.500 dólares seriam suficientes
- Isso considerando quantização total; se rodar em Q4 ou Q8, dá para executar em hardware abaixo de 10 mil dólares
- Queria saber quantos parâmetros esse modelo tem
Ao que tudo indica, esta semana é a "launch week" da MiniMax
Na segunda anunciaram o M1, e na terça o Hailuo 2
notícias sobre modelos chineses
Ainda não está claro se esse tipo de anúncio vai continuar ao longo da semana inteira, e por enquanto a empresa é mais conhecida por LLMs e modelos de vídeo
Os anúncios oficiais podem ser acompanhados no X da MiniMax (antigo Twitter)
Além disso, o relatório técnico do MiniMax M1 também é útil
PDF do relatório técnico
Não é um modelo open-weight SOTA, mas faz afirmações bem interessantes e ousadas sobre lightning attention e uma variação de GRPO (CISPO)
(não tenho nenhuma relação com a empresa, só estou compartilhando informações que encontrei)
- Já que foi M1 na segunda e Hailuo 2 na terça, teria sido engraçado nomear como os chips da Apple: M1, M1 Pro, M1 Ultra
Ao ver na arXiv a frase "We publicly release MiniMax-M1 at this https url", gostei da empresa por ter sido uma liberação real de código, e não só um repositório vazio de fachada
Minha opinião
- Pelo LinkedIn, parece ser uma empresa sediada em Singapura, e não parece haver uma barreira de entrada tão grande para criar bons LLMs
- Graças aos modelos open-weight e aos avanços de Strix Halo / Ryzen AI Max, estou otimista de que em alguns anos será possível rodar bons LLMs localmente de forma barata
- Parece inevitável que rodar modelos localmente vá se tornar o padrão, e isso me traz tanto expectativa quanto preocupação
  Se alguém tiver especialistas confiáveis ou pessoas que fazem discussões interessantes sobre essa área, gostaria de recomendações
- Apesar do que aparece no LinkedIn, na verdade é uma empresa sediada em Xangai
- Vi um post no Twitter dizendo que a MiniMax treinou o modelo com um orçamento de cerca de 500 mil dólares
  
  RL (aprendizado por reforço) treinado por 534.700 dólares
  Fico me perguntando como isso foi possível com esse custo
- A empresa é de fato uma companhia chinesa sediada em Xangai
  E também planeja abrir capital em breve na bolsa de Hong Kong (HKEX)
  artigo relacionado
Embora isso não esteja explicitado na página oficial, a MiniMax é uma empresa chinesa
ver na Wikipédia
- Muita gente sabe que a MiniMax é chinesa porque o gerador de vídeo deles, chamado 'Hailuo', tem um nome com forte identidade chinesa e ficou conhecido por isso até hoje
- Fico em dúvida se existe mesmo algum motivo para a empresa declarar na própria página do projeto que é uma companhia chinesa
Seria bom se dessem nomes melhores para esse tipo de modelo
Parece nome de processador de Mac Studio
- Conheço o algoritmo minimax
  O nome vem daquele famoso algoritmo clássico de IA
- Seu Mac foi feito pela 'Apple', e esse nome também vem literalmente de uma variedade de maçã
- Isso me lembra do meu cachorro Max, perdido há muitos anos; acho esse nome tão ruim que chega a ser quase criminoso
No artigo está escrito: "In our attention design, a transformer block with softmax attention follows every seven transnormer blocks (Qin et al., 2022a) with lightning attention"
Ou seja, 87,5% do conjunto é linear attention, e 12,5% é full attention
Na prática, o termo 'linear attention' é meio confuso
softmax attention é um mecanismo de roteamento de informação, e ao calcular o token k, ele recebe informação de 1 até k, mas isso precisa passar por canais de tamanho fixo
Já linear attention só tem um 'banco de registradores' de tamanho fixo em cada layer
Fora o fato de ser compatível com computação layer-at-once, não há muito de notável para que isso seja chamado de attention de verdade
Há comentários de que a MiniMax está alimentando rumores de IPO
artigo relacionado
Se treinaram algo dessa escala sem infraestrutura de nuvem ocidental, fico curioso sobre como é o pipeline de processamento de tokens
- Foram 3 semanas de treinamento com 512 GPUs H800, por cerca de 500 mil dólares
  referência no xcancel
- Usaram sneakernet (transporte físico de dados)

MiniMax-M1 open-weight, modelo de raciocínio com atenção híbrida em larga escala

Visão geral do projeto open source MiniMax-M1

1. Visão geral do modelo

2. Avaliação (Evaluation)

Principais pontos dos resultados de benchmark

3. Guia de uso do modelo MiniMax-M1

Configurações recomendadas para melhor desempenho

3.1. Parâmetros de inferência

3.2. Prompt de sistema

4. Guia de implantação

5. Chamada de função (interface funcional)

6. Chatbot & API

Leituras relacionadas

1 comentários

Opiniões do Hacker News