5 pontos por GN⁺ 2025-06-19 | 1 comentários | Compartilhar no WhatsApp
  • O MiniMax-M1 é o primeiro modelo de raciocínio em larga escala com atenção híbrida open-weight do mundo
  • Com uma estrutura híbrida MoE de 456 bilhões de parâmetros e um mecanismo de Lightning Attention, ele se destaca no processamento de contextos longos
  • Com treinamento baseado em RL e a adoção do algoritmo CISPO, consegue resolver diversos problemas com eficiência
  • Em benchmarks, comparado a modelos existentes como DeepSeek-R1 e Qwen3-235B, mostrou desempenho superior em engenharia de software complexa, uso de ferramentas e entradas longas
  • Com diversos ambientes de inferência, ferramentas de suporte, API e chatbot, tem alto valor de uso como base para agentes de modelos de linguagem da próxima geração

Visão geral do projeto open source MiniMax-M1

  • O MiniMax-M1 é o primeiro modelo de raciocínio em larga escala com atenção híbrida open-weight do mundo, demonstrando vantagens fortes e aplicabilidade prática em comparação com modelos comerciais e abertos existentes
  • Combina uma arquitetura híbrida Mixture-of-Experts (MoE) em larga escala com o mecanismo Lightning Attention, sendo otimizado para contexto longo, raciocínio complexo e resolução de problemas em ambientes de software
  • Suporta com eficiência contexto longo (até 1 milhão de tokens) e reduz drasticamente o custo computacional em teste (25% dos FLOPs do DeepSeek-R1 no padrão de 100K)
  • Com tecnologia RL de ponta, o novo algoritmo CISPO e o design de atenção híbrida, maximiza tanto a escalabilidade quanto a eficiência de raciocínio

1. Visão geral do modelo

  • O MiniMax-M1 adota uma arquitetura híbrida Mixture-of-Experts (MoE) e Lightning Attention
  • Foi desenvolvido com base no seu antecessor MiniMax-Text-01 (456 bilhões de parâmetros, 45,9 bilhões de parâmetros ativados por token)
  • Suporta comprimento de contexto de 1 milhão de tokens (8 vezes o tamanho de contexto do DeepSeek R1)
  • O Lightning Attention reduz drasticamente o custo computacional em teste (25% em relação ao DeepSeek R1)
  • É adequado para tarefas que exigem entradas longas e raciocínio complexo
  • Foi treinado em uma ampla gama de problemas, incluindo raciocínio matemático por RL em larga escala e engenharia de software do mundo real
  • Apresenta um framework próprio de escalonamento de RL do MiniMax-M1
    • Técnica CISPO: introduz um algoritmo de clipping de pesos de importance sampling superior aos métodos de RL existentes
    • Com base em atenção híbrida, reforça a eficiência e a escalabilidade do RL
  • Foi treinado e lançado em duas variantes de budget de pensamento de 40K e 80K
  • Em engenharia de software, uso de ferramentas e tarefas de contexto longo, mostrou desempenho excepcional em comparação com modelos abertos de alto nível como DeepSeek-R1 e Qwen3-235B
  • Fornece a base para construir agentes de modelos de linguagem de próxima geração voltados à resolução de desafios do mundo real

2. Avaliação (Evaluation)

Principais pontos dos resultados de benchmark

  • Nível próximo ao estado da arte em matemática, código, engenharia de software e contexto longo
  • Alcançou pontuações geralmente mais altas que outros modelos abertos, com competitividade especialmente diferenciada em benchmarks de software (SWE-bench) e contexto longo
  • Exemplos de métricas de destaque
    • SWE-bench: 56.0 (M1-80k) / 34.4 (Qwen3) / 49.2 (DeepSeek R1)
    • OpenAI-MRCR (128k): 73.4 (M1-80k) / 27.7 (Qwen3) / 35.8 (DeepSeek R1)
    • Mostra solidez em tarefas relevantes para desenvolvimento de software, como LiveCodeBench e FullStackBench
  • Ambiente de execução: avaliado com temperature 1.0 e top_p 0.95
  • Para benchmarks como SWE-bench e TAU-bench, a avaliação foi feita com procedimentos e configurações próprias (ex.: localização em duas etapas por arquivo, sem uso de embedding)

3. Guia de uso do modelo MiniMax-M1

Configurações recomendadas para melhor desempenho

3.1. Parâmetros de inferência

  • Temperature: 1.0
  • Top_p: 0.95
    Essa combinação oferece um ambiente que garante ao mesmo tempo diversidade textual e consistência lógica

3.2. Prompt de sistema

  • Tarefas gerais: "You are a helpful assistant."
  • Desenvolvimento web: apresenta prompts especializados para tarefas complexas de páginas web, como geração de código com UI integrada
  • Raciocínio matemático: resolver passo a passo e inserir a resposta final em \boxed{}

4. Guia de implantação

  • Os modelos MiniMax-M1-40k e MiniMax-M1-80k podem ser baixados no HuggingFace
  • Em serviços reais, recomenda-se implantação baseada em vLLM
    • Adequado para servir modelos em larga escala, com gerenciamento eficiente de memória, excelente processamento em lote e otimização de desempenho
  • Também há suporte para implantação separada baseada em Transformers

5. Chamada de função (interface funcional)

  • O MiniMax-M1 oferece suporte a chamada de função
    • Quando funções externas forem necessárias, gera automaticamente os parâmetros em formato estruturado
    • Disponibiliza um guia de chamada de função

6. Chatbot & API

  • MiniMax Chatbot: oferece uma interface de chat que inclui até busca online
  • API: oferece API online para desenvolvedores e ferramentas como o MiniMax MCP Server para uso por desenvolvedores
    • Inclui síntese de vídeo, imagem e voz com IA, além de clonagem de voz

1 comentários

 
GN⁺ 2025-06-19
Opiniões do Hacker News
  • Caso alguém esteja se perguntando o que é preciso para rodar isso, são necessárias 8 H200 de 141GB, com custo na faixa de 250 mil dólares
    discussão no github / informações de preço no eBay

    • Fico me perguntando se não daria para rodar em um Mac Studio de 512GB, já que 8.500 dólares seriam suficientes
    • Isso considerando quantização total; se rodar em Q4 ou Q8, dá para executar em hardware abaixo de 10 mil dólares
    • Queria saber quantos parâmetros esse modelo tem
  • Ao que tudo indica, esta semana é a "launch week" da MiniMax
    Na segunda anunciaram o M1, e na terça o Hailuo 2
    notícias sobre modelos chineses
    Ainda não está claro se esse tipo de anúncio vai continuar ao longo da semana inteira, e por enquanto a empresa é mais conhecida por LLMs e modelos de vídeo
    Os anúncios oficiais podem ser acompanhados no X da MiniMax (antigo Twitter)
    Além disso, o relatório técnico do MiniMax M1 também é útil
    PDF do relatório técnico
    Não é um modelo open-weight SOTA, mas faz afirmações bem interessantes e ousadas sobre lightning attention e uma variação de GRPO (CISPO)
    (não tenho nenhuma relação com a empresa, só estou compartilhando informações que encontrei)

    • Já que foi M1 na segunda e Hailuo 2 na terça, teria sido engraçado nomear como os chips da Apple: M1, M1 Pro, M1 Ultra
  • Ao ver na arXiv a frase "We publicly release MiniMax-M1 at this https url", gostei da empresa por ter sido uma liberação real de código, e não só um repositório vazio de fachada

  • Minha opinião

    • Pelo LinkedIn, parece ser uma empresa sediada em Singapura, e não parece haver uma barreira de entrada tão grande para criar bons LLMs
    • Graças aos modelos open-weight e aos avanços de Strix Halo / Ryzen AI Max, estou otimista de que em alguns anos será possível rodar bons LLMs localmente de forma barata
    • Parece inevitável que rodar modelos localmente vá se tornar o padrão, e isso me traz tanto expectativa quanto preocupação
      Se alguém tiver especialistas confiáveis ou pessoas que fazem discussões interessantes sobre essa área, gostaria de recomendações
    • Apesar do que aparece no LinkedIn, na verdade é uma empresa sediada em Xangai
    • Vi um post no Twitter dizendo que a MiniMax treinou o modelo com um orçamento de cerca de 500 mil dólares

      RL (aprendizado por reforço) treinado por 534.700 dólares
      Fico me perguntando como isso foi possível com esse custo

    • A empresa é de fato uma companhia chinesa sediada em Xangai
      E também planeja abrir capital em breve na bolsa de Hong Kong (HKEX)
      artigo relacionado
  • Embora isso não esteja explicitado na página oficial, a MiniMax é uma empresa chinesa
    ver na Wikipédia

    • Muita gente sabe que a MiniMax é chinesa porque o gerador de vídeo deles, chamado 'Hailuo', tem um nome com forte identidade chinesa e ficou conhecido por isso até hoje
    • Fico em dúvida se existe mesmo algum motivo para a empresa declarar na própria página do projeto que é uma companhia chinesa
  • Seria bom se dessem nomes melhores para esse tipo de modelo
    Parece nome de processador de Mac Studio

    • Conheço o algoritmo minimax
      O nome vem daquele famoso algoritmo clássico de IA
    • Seu Mac foi feito pela 'Apple', e esse nome também vem literalmente de uma variedade de maçã
    • Isso me lembra do meu cachorro Max, perdido há muitos anos; acho esse nome tão ruim que chega a ser quase criminoso
  • No artigo está escrito: "In our attention design, a transformer block with softmax attention follows every seven transnormer blocks (Qin et al., 2022a) with lightning attention"
    Ou seja, 87,5% do conjunto é linear attention, e 12,5% é full attention
    Na prática, o termo 'linear attention' é meio confuso
    softmax attention é um mecanismo de roteamento de informação, e ao calcular o token k, ele recebe informação de 1 até k, mas isso precisa passar por canais de tamanho fixo
    Já linear attention só tem um 'banco de registradores' de tamanho fixo em cada layer
    Fora o fato de ser compatível com computação layer-at-once, não há muito de notável para que isso seja chamado de attention de verdade

  • Há comentários de que a MiniMax está alimentando rumores de IPO
    artigo relacionado

  • Se treinaram algo dessa escala sem infraestrutura de nuvem ocidental, fico curioso sobre como é o pipeline de processamento de tokens

    • Foram 3 semanas de treinamento com 512 GPUs H800, por cerca de 500 mil dólares
      referência no xcancel
    • Usaram sneakernet (transporte físico de dados)