Modelo de raciocínio MiMo da Xiaomi
(github.com/XiaomiMiMo)- O MiMo-7B é uma série de modelos desenvolvida para aproveitar ao máximo o potencial de raciocínio dos modelos de linguagem
- Por meio de estratégias de pré-treinamento e pós-treinamento, apresenta excelente desempenho em tarefas de raciocínio matemático e de código
- Mesmo sendo um modelo pequeno, o MiMo-7B mostra desempenho comparável ao de modelos maiores
- É oferecido como código aberto, com potencial para contribuir com a comunidade
- Por meio de uma infraestrutura de RL, melhora significativamente a velocidade de treinamento e validação
I. Introdução
- A maior parte das pesquisas bem-sucedidas em aprendizado por reforço (RL) depende de modelos grandes, e melhorar ao mesmo tempo as capacidades de matemática e código em modelos pequenos é algo difícil
- O MiMo-7B é um modelo treinado do zero para tarefas de raciocínio e possui potencial de raciocínio capaz de superar modelos maiores
- A série MiMo-7B é oferecida como código aberto e pode contribuir com a comunidade no desenvolvimento de modelos de linguagem com forte capacidade de raciocínio
🌟 Principais pontos
-
Pré-treinamento: modelo-base para raciocínio
- Otimiza o pipeline de pré-processamento de dados para aumentar a densidade de padrões de raciocínio
- Usa várias estratégias para gerar dados sintéticos de raciocínio diversos
- Inclui previsão de múltiplos tokens como objetivo adicional de treinamento para melhorar o desempenho do modelo
-
Receita de pós-treinamento: modelo de raciocínio pioneiro
- Usa 130K problemas de matemática e código como dados de treinamento de RL
- Introduz uma recompensa de código baseada na dificuldade do teste para realizar a otimização de política de forma eficaz
- Implementa uma estratégia de reamostragem de dados para problemas fáceis, estabilizando as atualizações da política
-
Infraestrutura de RL
- Desenvolve o Seamless Rollout Engine para acelerar o treinamento e a validação em RL
- Dá suporte a MTP no vLLM e reforça a robustez do mecanismo de inferência do sistema de RL
II. Detalhes do modelo
- A série MiMo-7B oferece vários checkpoints de modelo e pode ser baixada no HuggingFace
III. Resultados da avaliação
- O MiMo-7B-RL mostra excelente desempenho em tarefas de raciocínio matemático e de código
- Alcança resultados competitivos em vários benchmarks
IV. Implantação
- Suporte de inferência via vLLM e HuggingFace
- É possível obter desempenho ideal com o uso do ambiente recomendado e dos prompts
V. Citação
- Fornece informações de citação sobre o MiMo-7B
VI. Contato
- Para dúvidas, entre em contato por mimo@xiaomi.com ou abra uma issue no GitHub
1 comentários
Comentários do Hacker News
Achei interessante como o artigo trata a etapa de aprendizado por reforço (RL) para dados de código. Eles treinam em tarefas de geração de código que podem ser resolvidas executando testes unitários. Fico curioso se outros modelos também fazem essa etapa de treinamento
Fico curioso sobre por que há tantos modelos de IA chineses com foco primeiro em inglês. Será que não estão interessados na própria população, ou acham que, se lançarem um modelo com foco primeiro em chinês, ele não receberá atenção no Ocidente?
O desempenho de programação do modelo 7B é muito forte. Estou usando o Gemini Pro 2.5, que obteve 67,8 pontos, e este modelo fez 57,8, chegando bem perto dos 60,6 do Gemini 2.5 Flash
O MiMo-7B supera modelos maiores, como o Qwen-32B, e afirma desempenho equivalente ao OpenAI o1-mini em benchmarks de matemática e código. Fico me perguntando se isso é um sinal de que pré-treinamento + otimização com RLHF estão começando a superar escala, ou se apenas estamos ficando melhores em medir funcionalidades estreitas com benchmarks
É engraçado ver benchmarks que omitem modelos de ponta como o O3. Hoje ele é o melhor modelo em muitos benchmarks. Também tem o Gemini Pro/Claude 3.7
Ao usar arquivos gguf no ollama, fico curioso se vocês normalmente criam um modelfile para usar com um modelo novo, ou se apenas torcem para que o ollama padrão funcione com o novo modelo
No README está escrito apenas "RL", sem especificar que tipo de RL foi usado. Aos pesquisadores: sei que vocês estão ocupados, mas por favor não omitam esse tipo de detalhe
Testei um pouco e, no geral, parece bem sólido. O tempo de espera é considerável por causa do longo tempo de reflexão, mas ele ainda demora mais do que modelos maiores recentes, como o qwen moe
Fico curioso se vão usar esse modelo como assistente de IA nos celulares da série Xiaomi 15. Provavelmente vão. Não tenho certeza do que esperar
Uau. Benchmark excelente. Estou ansioso para conversar com esse modelo