7 pontos por xguru 23 시간 전 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Um modelo omnimodal nativo que processa de forma integrada texto, imagem, vídeo e áudio em uma arquitetura única, com foco especial em tarefas de agente
  • Licença MIT, permitindo distribuição comercial e até fine-tuning sem necessidade de autorização separada
  • Estrutura Sparse MoE que ativa apenas 15B dos 310B parâmetros totais para permitir inferência eficiente (a versão Pro é 1.02T/42B)
  • Hybrid Attention (SWA + GA na proporção 5:1, janela 128) reduz o armazenamento de KV-cache em cerca de 6 vezes, ao mesmo tempo em que suporta contexto de até 1M tokens
  • Equipado com encoder de visão dedicado (ViT de 729M parâmetros, atenção híbrida por janela) e encoder de áudio (261M parâmetros, baseado no MiMo-Audio-Tokenizer)
  • Módulo Multi-Token Prediction (MTP) com 3 camadas para acelerar a inferência com speculative decoding e melhorar a eficiência do treinamento RL
  • Treinado com cerca de 48T tokens em FP8 mixed precision e, na etapa de pós-processamento, aplicou SFT, RL de agente em larga escala, Multi-Teacher On-Policy Distillation (MOPD) para reforçar o desempenho em benchmarks de agentes e multimodais
    • Pipeline de 5 etapas (pré-treinamento de texto → aquecimento do projetor → pré-treinamento multimodal → SFT/pós-processamento de agente → RL/MOPD)
  • Suporte a SGLang (quantização FP8, paralelismo dp/tp) e distribuição oficial no vLLM
  • Disponível em duas versões: Base (256K) e Full (1M)

Ainda não há comentários.

Ainda não há comentários.