MiMo-V2.5 — o modelo de IA omnimodal open source da Xiaomi

(huggingface.co)

7 pontos por xguru 23 시간 전 | Ainda não há comentários. | Compartilhar no WhatsApp

Um modelo omnimodal nativo que processa de forma integrada texto, imagem, vídeo e áudio em uma arquitetura única, com foco especial em tarefas de agente
Licença MIT, permitindo distribuição comercial e até fine-tuning sem necessidade de autorização separada
Estrutura Sparse MoE que ativa apenas 15B dos 310B parâmetros totais para permitir inferência eficiente (a versão Pro é 1.02T/42B)
Hybrid Attention (SWA + GA na proporção 5:1, janela 128) reduz o armazenamento de KV-cache em cerca de 6 vezes, ao mesmo tempo em que suporta contexto de até 1M tokens
Equipado com encoder de visão dedicado (ViT de 729M parâmetros, atenção híbrida por janela) e encoder de áudio (261M parâmetros, baseado no MiMo-Audio-Tokenizer)
Módulo Multi-Token Prediction (MTP) com 3 camadas para acelerar a inferência com speculative decoding e melhorar a eficiência do treinamento RL
Treinado com cerca de 48T tokens em FP8 mixed precision e, na etapa de pós-processamento, aplicou SFT, RL de agente em larga escala, Multi-Teacher On-Policy Distillation (MOPD) para reforçar o desempenho em benchmarks de agentes e multimodais
- Pipeline de 5 etapas (pré-treinamento de texto → aquecimento do projetor → pré-treinamento multimodal → SFT/pós-processamento de agente → RL/MOPD)
Suporte a SGLang (quantização FP8, paralelismo dp/tp) e distribuição oficial no vLLM
Disponível em duas versões: Base (256K) e Full (1M)

Leituras relacionadas