1 pontos por GN⁺ 2025-05-01 | 1 comentários | Compartilhar no WhatsApp
  • O MiMo-7B é uma série de modelos desenvolvida para aproveitar ao máximo o potencial de raciocínio dos modelos de linguagem
  • Por meio de estratégias de pré-treinamento e pós-treinamento, apresenta excelente desempenho em tarefas de raciocínio matemático e de código
  • Mesmo sendo um modelo pequeno, o MiMo-7B mostra desempenho comparável ao de modelos maiores
  • É oferecido como código aberto, com potencial para contribuir com a comunidade
  • Por meio de uma infraestrutura de RL, melhora significativamente a velocidade de treinamento e validação

I. Introdução

  • A maior parte das pesquisas bem-sucedidas em aprendizado por reforço (RL) depende de modelos grandes, e melhorar ao mesmo tempo as capacidades de matemática e código em modelos pequenos é algo difícil
  • O MiMo-7B é um modelo treinado do zero para tarefas de raciocínio e possui potencial de raciocínio capaz de superar modelos maiores
  • A série MiMo-7B é oferecida como código aberto e pode contribuir com a comunidade no desenvolvimento de modelos de linguagem com forte capacidade de raciocínio

🌟 Principais pontos

  • Pré-treinamento: modelo-base para raciocínio

    • Otimiza o pipeline de pré-processamento de dados para aumentar a densidade de padrões de raciocínio
    • Usa várias estratégias para gerar dados sintéticos de raciocínio diversos
    • Inclui previsão de múltiplos tokens como objetivo adicional de treinamento para melhorar o desempenho do modelo
  • Receita de pós-treinamento: modelo de raciocínio pioneiro

    • Usa 130K problemas de matemática e código como dados de treinamento de RL
    • Introduz uma recompensa de código baseada na dificuldade do teste para realizar a otimização de política de forma eficaz
    • Implementa uma estratégia de reamostragem de dados para problemas fáceis, estabilizando as atualizações da política
  • Infraestrutura de RL

    • Desenvolve o Seamless Rollout Engine para acelerar o treinamento e a validação em RL
    • Dá suporte a MTP no vLLM e reforça a robustez do mecanismo de inferência do sistema de RL

II. Detalhes do modelo

  • A série MiMo-7B oferece vários checkpoints de modelo e pode ser baixada no HuggingFace

III. Resultados da avaliação

  • O MiMo-7B-RL mostra excelente desempenho em tarefas de raciocínio matemático e de código
  • Alcança resultados competitivos em vários benchmarks

IV. Implantação

  • Suporte de inferência via vLLM e HuggingFace
  • É possível obter desempenho ideal com o uso do ambiente recomendado e dos prompts

V. Citação

  • Fornece informações de citação sobre o MiMo-7B

VI. Contato

  • Para dúvidas, entre em contato por mimo@xiaomi.com ou abra uma issue no GitHub

1 comentários

 
GN⁺ 2025-05-01
Comentários do Hacker News
  • Achei interessante como o artigo trata a etapa de aprendizado por reforço (RL) para dados de código. Eles treinam em tarefas de geração de código que podem ser resolvidas executando testes unitários. Fico curioso se outros modelos também fazem essa etapa de treinamento

    • Dados de código: foi curado um conjunto de treinamento de alta qualidade, incluindo datasets open source e um novo conjunto de problemas coletados para desafios de programação. Problemas sem casos de teste foram removidos. Entre os problemas com solução de referência, foram excluídos os que não passavam em todos os casos de teste. Problemas sem solução de referência foram excluídos se não pudessem ser resolvidos em 16 rollouts de um modelo avançado de raciocínio. Assim como nos dados de matemática, a versão SFT do MiMo-7B foi usada para filtrar problemas fáceis que eram resolvidos perfeitamente em todos os 16 rollouts. Esse processo rigoroso de limpeza gerou 30.000 problemas de código
    • Durante cada iteração de RL, milhares de problemas são avaliados para calcular a recompensa. Cada problema pode incluir centenas de casos de teste. Para aumentar a eficiência do cálculo da recompensa e eliminar o tempo ocioso de GPU, foi desenvolvido um ambiente de online judge capaz de executar em paralelo um volume muito alto de testes unitários
  • Fico curioso sobre por que há tantos modelos de IA chineses com foco primeiro em inglês. Será que não estão interessados na própria população, ou acham que, se lançarem um modelo com foco primeiro em chinês, ele não receberá atenção no Ocidente?

  • O desempenho de programação do modelo 7B é muito forte. Estou usando o Gemini Pro 2.5, que obteve 67,8 pontos, e este modelo fez 57,8, chegando bem perto dos 60,6 do Gemini 2.5 Flash

    • Depois do que ouvi sobre o llama4, fiquei cético em relação aos resultados de avaliação, mas vou observar onde ele ficará em avaliações fechadas. Ainda assim, é muito impressionante
  • O MiMo-7B supera modelos maiores, como o Qwen-32B, e afirma desempenho equivalente ao OpenAI o1-mini em benchmarks de matemática e código. Fico me perguntando se isso é um sinal de que pré-treinamento + otimização com RLHF estão começando a superar escala, ou se apenas estamos ficando melhores em medir funcionalidades estreitas com benchmarks

  • É engraçado ver benchmarks que omitem modelos de ponta como o O3. Hoje ele é o melhor modelo em muitos benchmarks. Também tem o Gemini Pro/Claude 3.7

  • Ao usar arquivos gguf no ollama, fico curioso se vocês normalmente criam um modelfile para usar com um modelo novo, ou se apenas torcem para que o ollama padrão funcione com o novo modelo

  • No README está escrito apenas "RL", sem especificar que tipo de RL foi usado. Aos pesquisadores: sei que vocês estão ocupados, mas por favor não omitam esse tipo de detalhe

  • Testei um pouco e, no geral, parece bem sólido. O tempo de espera é considerável por causa do longo tempo de reflexão, mas ele ainda demora mais do que modelos maiores recentes, como o qwen moe

    • moe parece um compromisso melhor no geral
  • Fico curioso se vão usar esse modelo como assistente de IA nos celulares da série Xiaomi 15. Provavelmente vão. Não tenho certeza do que esperar

  • Uau. Benchmark excelente. Estou ansioso para conversar com esse modelo

    • Algumas coisas chamam atenção. Primeiro, o modelo 7B foi treinado com 25T tokens (!). Isso é treinamento em escala Meta. O Llama 4 Maverick foi treinado com cerca de 22T. (Scout, o modelo menor: 40T)
    • Segundo, é um caminho interessante rumo a um modelo de RL com raciocínio embutido desde o início, em vez de um modelo destilado ou de uma camada de RL para extrair raciocínio de outros modelos. A alegação é que, dessa forma, dá para obter muito mais eficiência adicional por parâmetro
    • Não tenho experiência com modelos da Xiaomi, então sou cauteloso com este, mas estatisticamente ele parece um modelo local de raciocínio muito promissor