- Um modelo omnimodal nativo que processa texto, imagem, vídeo e áudio de forma integrada em uma arquitetura única, com foco especial em tarefas de agentes
- Licença MIT, permitindo distribuição comercial e fine-tuning sem necessidade de autorização separada
- Estrutura Sparse MoE que ativa apenas 15B dos 310B parâmetros totais, possibilitando inferência eficiente (a versão Pro é 1.02T/42B)
- Hybrid Attention (SWA + GA na proporção 5:1, janela 128) reduz em cerca de 6 vezes o armazenamento de KV-cache e ainda oferece suporte a contexto de até 1M tokens
- Inclui encoder de visão dedicado (ViT de 729M parâmetros, atenção híbrida em janela) e encoder de áudio (261M parâmetros, baseado no MiMo-Audio-Tokenizer)
- Módulo Multi-Token Prediction (MTP) com 3 camadas para acelerar a inferência com speculative decoding e melhorar a eficiência do treinamento em RL
- Treinado com cerca de 48T tokens em precisão mista FP8 e, na etapa de pós-processamento, aplica SFT, RL de agentes em larga escala e Multi-Teacher On-Policy Distillation (MOPD) para reforçar o desempenho em benchmarks de agentes e multimodais
- Pipeline em 5 etapas (pré-treinamento em texto → aquecimento do projetor → pré-treinamento multimodal → SFT/pós-processamento para agentes → RL/MOPD)
- Suporte a SGLang (quantização FP8, paralelismo dp/tp) e distribuição oficial no vLLM
- Disponível em duas versões: Base (256K) e Full (1M)
2 comentários
A VentureBeat testou isso e parece que é bem adequado para o OpenClaw
https://venturebeat.com/ai/…
Considerando as principais áreas de negócios da Xiaomi, é possível que isso também tenha sido criado tendo em mente agentes como OpenClaw e Hermes.