- O Kimi K2.5, lançado pela Moonshot AI, é um modelo agêntico multimodal open source otimizado conjuntamente para texto e visão, cobrindo de forma abrangente raciocínio, programação, visão e tarefas de agentes em um único modelo
- Para superar os limites dos agentes sequenciais existentes, ele introduz a orquestração paralela de agentes Agent Swarm, que decompõe e executa tarefas complexas simultaneamente
- Em avaliações amplas de benchmark que incluem imagens, vídeos, documentos, web e ambientes de SO, apresenta desempenho comparativo frente a modelos comerciais e open source
- Confirma experimentalmente o efeito de transferência entre modalidades, em que o aprendizado por reforço visual melhora até o desempenho de raciocínio em texto
- Disponibiliza checkpoints treinados com o objetivo de expandir a pesquisa em sistemas agênticos gerais e o uso prático
Visão geral e problema
- Os grandes modelos de linguagem estão evoluindo além de simples perguntas e respostas, rumo a uma inteligência agêntica capaz de usar ferramentas e realizar planejamento de longo prazo
- Os modelos multimodais existentes costumam adicionar visão a uma arquitetura centrada em texto, o que gera conflitos entre modalidades e limitações de generalização
- Em tarefas reais complexas, a latência e os limites de contexto causados pela execução sequencial de agentes atuam como gargalos principais
Projeto central do Kimi K2.5
- Reforça o alinhamento entre as duas modalidades desde o início do treinamento por meio de pré-treinamento conjunto de texto–visão, misturando ambas em proporção constante
- Usa o encoder visual MoonViT-3D para processar imagens em resolução original e vídeos longos com a mesma estrutura
- Adota a estratégia de zero-vision SFT, em que o desempenho é ativado mesmo sem SFT dedicado à visão
- Melhora conjuntamente conhecimento, raciocínio, programação e capacidades agênticas por meio de aprendizado por reforço multimodal conjunto organizado por unidades de capacidade
Arquitetura Agent Swarm
- Um orquestrador central decompõe a tarefa em subproblemas paralelizáveis e cria dinamicamente subagentes especializados
- Cada subagente trabalha em um contexto local independente, evitando a contaminação do contexto global
- Implementa sharding de contexto ao mesclar seletivamente apenas resultados resumidos, em vez do histórico completo
- Aprende a minimizar a latência com prompts de treinamento que induzem execução paralela e com a métrica Critical Steps
Configuração e escala do treinamento
- O modelo base Kimi K2 é uma arquitetura MoE de 1 trilhão de parâmetros pré-treinada com 15 trilhões de tokens de texto
- Suporta comprimento de contexto de até 256k por meio de treinamento conjunto de contexto longo
- Inclui dados multimodais diversos como imagens, vídeos, OCR, documentos e capturas de tela de SO
Avaliação e desempenho: resumo focado na comparação entre os principais modelos
- O Kimi K2.5 foi avaliado em comparação, nas mesmas condições, com modelos comerciais (Claude Opus 4.5, GPT-5.2, Gemini 3 Pro) e modelos open source (DeepSeek-V3.2, Qwen3-VL-235B)
- Todas as avaliações foram realizadas com temperature 1.0, top-p 0.95 e comprimento máximo de contexto de 256k
-
Benchmarks de raciocínio e conhecimento geral
- No AIME 2025, o Kimi K2.5 registrou 96.1, superando Claude Opus 4.5 (92.8) e Gemini 3 Pro (95.0), e ficando próximo do GPT-5.2 (100)
- Também manteve pontuações superiores às de Claude Opus 4.5 e Qwen3-VL em HMMT 2025 e IMO-AnswerBench
- No GPQA-Diamond, marcou 87.6, nível semelhante ao Claude Opus 4.5 (87.0), confirmando desempenho superior ao de modelos open source
- No LongBench v2, o Gemini 3 Pro obteve a maior pontuação, mas o Kimi K2.5 apresentou resultados competitivos frente a DeepSeek-V3.2 e Qwen3-VL
-
Programação e engenharia de software
- No SWE-Bench Verified, o Kimi K2.5 marcou 76.8, similar ao DeepSeek-V3.2 (76.2) e acima do Qwen3-VL (73.1)
- Também em SWE-Bench Pro e Multilingual, ficou abaixo dos modelos comerciais, mas se manteve entre os melhores no universo open source
- No LiveCodeBench v6, registrou 85.0, acima de Claude Opus 4.5 (82.2) e Qwen3-VL (83.3)
- Em PaperBench(CodeDev) e CyberGym, os modelos comerciais ainda lideram, mas o Kimi K2.5 mostra desempenho estável em nível utilizável na prática
-
Tarefas agênticas e baseadas em busca
- No BrowseComp, atingiu 60.6 no modo de agente único, superando com ampla margem o Claude Opus 4.5 (37.0)
- Com Agent Swarm aplicado, alcançou 78.4 no BrowseComp e 79.0 no WideSearch, confirmando melhora clara em relação ao agente único
- No WideSearch, o Claude Opus 4.5 obteve pontuação maior no modo de agente único, mas na configuração com agentes paralelos o Kimi K2.5 leva vantagem
- Também registrou resultados próximos aos modelos comerciais nas famílias DeepSearchQA e FinSearchComp
-
Compreensão visual, de documentos e de vídeo
- Em MMMU-Pro, OCRBench, OmniDocBench 1.5 e outros, foi comparado diretamente ao Qwen3-VL e, no geral, manteve competitividade em raciocínio visual e compreensão de documentos
- O GPT-5.2 apresentou taxa de falha de saída de cerca de 10% em algumas avaliações visuais, sendo pontuado de forma conservadora
- Em benchmarks de vídeo curto e longo, o Kimi K2.5 mostrou desempenho consistente, com resultados mais estáveis que modelos centrados em imagem única
-
Avaliação geral
- O Kimi K2.5 não alcança os melhores modelos comerciais em alguns indicadores, mas entre os modelos multimodais e agênticos open source apresenta o desempenho mais amplo e equilibrado
- Em especial, com o Agent Swarm aplicado, fica claramente à frente em tarefas agênticas e de busca
- Por reunir raciocínio, programação, visão e capacidades agênticas em um único modelo aberto, trata-se de um modelo agêntico geral realmente utilizável, não apenas experimental
Limitações e observações
- Alguns modelos comerciais apresentaram taxa de falha de saída em benchmarks visuais, o que levou a pontuações conservadoras
- Em tarefas agênticas longas, a diferença de desempenho varia bastante conforme a estratégia de gerenciamento de contexto
- Alguns benchmarks de alto custo foram excluídos da avaliação devido a problemas de estabilidade de API
Divulgação e uso
- Os checkpoints de pós-treinamento do Kimi K2.5 foram disponibilizados como open source
- É um modelo base reutilizável para sistemas agênticos gerais, pesquisa multimodal e cargas reais de automação
- A abordagem que não separa texto e visão, somada à estrutura paralela de agentes, pode representar um caminho prático rumo à General Agentic Intelligence
Ainda não há comentários.