7 pontos por xguru 12 일 전 | 2 comentários | Compartilhar no WhatsApp
  • Um modelo omnimodal nativo que processa texto, imagem, vídeo e áudio de forma integrada em uma arquitetura única, com foco especial em tarefas de agentes
  • Licença MIT, permitindo distribuição comercial e fine-tuning sem necessidade de autorização separada
  • Estrutura Sparse MoE que ativa apenas 15B dos 310B parâmetros totais, possibilitando inferência eficiente (a versão Pro é 1.02T/42B)
  • Hybrid Attention (SWA + GA na proporção 5:1, janela 128) reduz em cerca de 6 vezes o armazenamento de KV-cache e ainda oferece suporte a contexto de até 1M tokens
  • Inclui encoder de visão dedicado (ViT de 729M parâmetros, atenção híbrida em janela) e encoder de áudio (261M parâmetros, baseado no MiMo-Audio-Tokenizer)
  • Módulo Multi-Token Prediction (MTP) com 3 camadas para acelerar a inferência com speculative decoding e melhorar a eficiência do treinamento em RL
  • Treinado com cerca de 48T tokens em precisão mista FP8 e, na etapa de pós-processamento, aplica SFT, RL de agentes em larga escala e Multi-Teacher On-Policy Distillation (MOPD) para reforçar o desempenho em benchmarks de agentes e multimodais
    • Pipeline em 5 etapas (pré-treinamento em texto → aquecimento do projetor → pré-treinamento multimodal → SFT/pós-processamento para agentes → RL/MOPD)
  • Suporte a SGLang (quantização FP8, paralelismo dp/tp) e distribuição oficial no vLLM
  • Disponível em duas versões: Base (256K) e Full (1M)

2 comentários

 
xguru 12 일 전

A VentureBeat testou isso e parece que é bem adequado para o OpenClaw
https://venturebeat.com/ai/…

  • No benchmark ClawEval, o modelo Pro registrou 63,8% de taxa de sucesso, liderando entre os modelos open source
  • Alcançou resultados equivalentes usando 40% a 60% menos tokens em comparação com Anthropic Claude Opus 4.6, Google Gemini 3.1 Pro e OpenAI GPT-5.4
  • MiMo-V2.5 ("Omni") é um modelo nativamente especializado em multimodalidade, integrando processamento de visão, áudio e texto
  • MiMo-V2.5-Pro ("Agent") é especializado em "coerência de longo horizonte (long-horizon coherence)" e engenharia de software complexa
  • O modelo Pro marcou 1581 pontos no benchmark GDPVal-AA(Elo), superando Kimi K2.6 e GLM 5.1
  • Ao contrário de muitos modelos "abertos" que incluem políticas restritivas de "Acceptable Use", o MiMo-V2.5 foi lançado sob licença MIT
    • Sem necessidade de aprovação: distribuição comercial possível sem permissão explícita da Xiaomi
    • Liberdade para treinamento contínuo: é possível fazer fine-tuning com seus próprios dados e publicar pesos derivados
    • Uso comercial irrestrito: sem teto de receita ou limite de número de usuários, algo comum em licenças comunitárias
  • Líder do projeto: Fuli Luo (ex-membro central da DeepSeek)

    "O valor de um modelo não é medido pelo ranking, mas pelos problemas que ele resolve"

 
cosine20 10 일 전

Considerando as principais áreas de negócios da Xiaomi, é possível que isso também tenha sido criado tendo em mente agentes como OpenClaw e Hermes.