Relatório técnico do Kimi K2.5 [PDF] - um modelo multimodal aberto rumo à inteligência agêntica visual

(github.com/MoonshotAI)

5 pontos por GN⁺ 2026-02-01 | Ainda não há comentários. | Compartilhar no WhatsApp

O Kimi K2.5, lançado pela Moonshot AI, é um modelo agêntico multimodal open source otimizado conjuntamente para texto e visão, cobrindo de forma abrangente raciocínio, programação, visão e tarefas de agentes em um único modelo
Para superar os limites dos agentes sequenciais existentes, ele introduz a orquestração paralela de agentes Agent Swarm, que decompõe e executa tarefas complexas simultaneamente
Em avaliações amplas de benchmark que incluem imagens, vídeos, documentos, web e ambientes de SO, apresenta desempenho comparativo frente a modelos comerciais e open source
Confirma experimentalmente o efeito de transferência entre modalidades, em que o aprendizado por reforço visual melhora até o desempenho de raciocínio em texto
Disponibiliza checkpoints treinados com o objetivo de expandir a pesquisa em sistemas agênticos gerais e o uso prático

Visão geral e problema

Os grandes modelos de linguagem estão evoluindo além de simples perguntas e respostas, rumo a uma inteligência agêntica capaz de usar ferramentas e realizar planejamento de longo prazo
Os modelos multimodais existentes costumam adicionar visão a uma arquitetura centrada em texto, o que gera conflitos entre modalidades e limitações de generalização
Em tarefas reais complexas, a latência e os limites de contexto causados pela execução sequencial de agentes atuam como gargalos principais

Projeto central do Kimi K2.5

Reforça o alinhamento entre as duas modalidades desde o início do treinamento por meio de pré-treinamento conjunto de texto–visão, misturando ambas em proporção constante
Usa o encoder visual MoonViT-3D para processar imagens em resolução original e vídeos longos com a mesma estrutura
Adota a estratégia de zero-vision SFT, em que o desempenho é ativado mesmo sem SFT dedicado à visão
Melhora conjuntamente conhecimento, raciocínio, programação e capacidades agênticas por meio de aprendizado por reforço multimodal conjunto organizado por unidades de capacidade

Arquitetura Agent Swarm

Um orquestrador central decompõe a tarefa em subproblemas paralelizáveis e cria dinamicamente subagentes especializados
Cada subagente trabalha em um contexto local independente, evitando a contaminação do contexto global
Implementa sharding de contexto ao mesclar seletivamente apenas resultados resumidos, em vez do histórico completo
Aprende a minimizar a latência com prompts de treinamento que induzem execução paralela e com a métrica Critical Steps

Configuração e escala do treinamento

O modelo base Kimi K2 é uma arquitetura MoE de 1 trilhão de parâmetros pré-treinada com 15 trilhões de tokens de texto
Suporta comprimento de contexto de até 256k por meio de treinamento conjunto de contexto longo
Inclui dados multimodais diversos como imagens, vídeos, OCR, documentos e capturas de tela de SO

Avaliação e desempenho: resumo focado na comparação entre os principais modelos

O Kimi K2.5 foi avaliado em comparação, nas mesmas condições, com modelos comerciais (Claude Opus 4.5, GPT-5.2, Gemini 3 Pro) e modelos open source (DeepSeek-V3.2, Qwen3-VL-235B)
Todas as avaliações foram realizadas com temperature 1.0, top-p 0.95 e comprimento máximo de contexto de 256k
Benchmarks de raciocínio e conhecimento geral
- No AIME 2025, o Kimi K2.5 registrou 96.1, superando Claude Opus 4.5 (92.8) e Gemini 3 Pro (95.0), e ficando próximo do GPT-5.2 (100)
- Também manteve pontuações superiores às de Claude Opus 4.5 e Qwen3-VL em HMMT 2025 e IMO-AnswerBench
- No GPQA-Diamond, marcou 87.6, nível semelhante ao Claude Opus 4.5 (87.0), confirmando desempenho superior ao de modelos open source
- No LongBench v2, o Gemini 3 Pro obteve a maior pontuação, mas o Kimi K2.5 apresentou resultados competitivos frente a DeepSeek-V3.2 e Qwen3-VL
Programação e engenharia de software
- No SWE-Bench Verified, o Kimi K2.5 marcou 76.8, similar ao DeepSeek-V3.2 (76.2) e acima do Qwen3-VL (73.1)
- Também em SWE-Bench Pro e Multilingual, ficou abaixo dos modelos comerciais, mas se manteve entre os melhores no universo open source
- No LiveCodeBench v6, registrou 85.0, acima de Claude Opus 4.5 (82.2) e Qwen3-VL (83.3)
- Em PaperBench(CodeDev) e CyberGym, os modelos comerciais ainda lideram, mas o Kimi K2.5 mostra desempenho estável em nível utilizável na prática
Tarefas agênticas e baseadas em busca
- No BrowseComp, atingiu 60.6 no modo de agente único, superando com ampla margem o Claude Opus 4.5 (37.0)
- Com Agent Swarm aplicado, alcançou 78.4 no BrowseComp e 79.0 no WideSearch, confirmando melhora clara em relação ao agente único
- No WideSearch, o Claude Opus 4.5 obteve pontuação maior no modo de agente único, mas na configuração com agentes paralelos o Kimi K2.5 leva vantagem
- Também registrou resultados próximos aos modelos comerciais nas famílias DeepSearchQA e FinSearchComp
Compreensão visual, de documentos e de vídeo
- Em MMMU-Pro, OCRBench, OmniDocBench 1.5 e outros, foi comparado diretamente ao Qwen3-VL e, no geral, manteve competitividade em raciocínio visual e compreensão de documentos
- O GPT-5.2 apresentou taxa de falha de saída de cerca de 10% em algumas avaliações visuais, sendo pontuado de forma conservadora
- Em benchmarks de vídeo curto e longo, o Kimi K2.5 mostrou desempenho consistente, com resultados mais estáveis que modelos centrados em imagem única
Avaliação geral
- O Kimi K2.5 não alcança os melhores modelos comerciais em alguns indicadores, mas entre os modelos multimodais e agênticos open source apresenta o desempenho mais amplo e equilibrado
- Em especial, com o Agent Swarm aplicado, fica claramente à frente em tarefas agênticas e de busca
- Por reunir raciocínio, programação, visão e capacidades agênticas em um único modelo aberto, trata-se de um modelo agêntico geral realmente utilizável, não apenas experimental

Limitações e observações

Alguns modelos comerciais apresentaram taxa de falha de saída em benchmarks visuais, o que levou a pontuações conservadoras
Em tarefas agênticas longas, a diferença de desempenho varia bastante conforme a estratégia de gerenciamento de contexto
Alguns benchmarks de alto custo foram excluídos da avaliação devido a problemas de estabilidade de API

Divulgação e uso

Os checkpoints de pós-treinamento do Kimi K2.5 foram disponibilizados como open source
É um modelo base reutilizável para sistemas agênticos gerais, pesquisa multimodal e cargas reais de automação
A abordagem que não separa texto e visão, somada à estrutura paralela de agentes, pode representar um caminho prático rumo à General Agentic Intelligence

Relatório técnico do Kimi K2.5 [PDF] - um modelo multimodal aberto rumo à inteligência agêntica visual

Visão geral e problema

Projeto central do Kimi K2.5

Arquitetura Agent Swarm

Configuração e escala do treinamento

Avaliação e desempenho: resumo focado na comparação entre os principais modelos

Benchmarks de raciocínio e conhecimento geral

Programação e engenharia de software

Tarefas agênticas e baseadas em busca

Compreensão visual, de documentos e de vídeo

Avaliação geral

Limitações e observações

Divulgação e uso

Leituras relacionadas

Ainda não há comentários.