5 pontos por GN⁺ 2026-02-01 | Ainda não há comentários. | Compartilhar no WhatsApp
  • O Kimi K2.5, lançado pela Moonshot AI, é um modelo agêntico multimodal open source otimizado conjuntamente para texto e visão, cobrindo de forma abrangente raciocínio, programação, visão e tarefas de agentes em um único modelo
  • Para superar os limites dos agentes sequenciais existentes, ele introduz a orquestração paralela de agentes Agent Swarm, que decompõe e executa tarefas complexas simultaneamente
  • Em avaliações amplas de benchmark que incluem imagens, vídeos, documentos, web e ambientes de SO, apresenta desempenho comparativo frente a modelos comerciais e open source
  • Confirma experimentalmente o efeito de transferência entre modalidades, em que o aprendizado por reforço visual melhora até o desempenho de raciocínio em texto
  • Disponibiliza checkpoints treinados com o objetivo de expandir a pesquisa em sistemas agênticos gerais e o uso prático

Visão geral e problema

  • Os grandes modelos de linguagem estão evoluindo além de simples perguntas e respostas, rumo a uma inteligência agêntica capaz de usar ferramentas e realizar planejamento de longo prazo
  • Os modelos multimodais existentes costumam adicionar visão a uma arquitetura centrada em texto, o que gera conflitos entre modalidades e limitações de generalização
  • Em tarefas reais complexas, a latência e os limites de contexto causados pela execução sequencial de agentes atuam como gargalos principais

Projeto central do Kimi K2.5

  • Reforça o alinhamento entre as duas modalidades desde o início do treinamento por meio de pré-treinamento conjunto de texto–visão, misturando ambas em proporção constante
  • Usa o encoder visual MoonViT-3D para processar imagens em resolução original e vídeos longos com a mesma estrutura
  • Adota a estratégia de zero-vision SFT, em que o desempenho é ativado mesmo sem SFT dedicado à visão
  • Melhora conjuntamente conhecimento, raciocínio, programação e capacidades agênticas por meio de aprendizado por reforço multimodal conjunto organizado por unidades de capacidade

Arquitetura Agent Swarm

  • Um orquestrador central decompõe a tarefa em subproblemas paralelizáveis e cria dinamicamente subagentes especializados
  • Cada subagente trabalha em um contexto local independente, evitando a contaminação do contexto global
  • Implementa sharding de contexto ao mesclar seletivamente apenas resultados resumidos, em vez do histórico completo
  • Aprende a minimizar a latência com prompts de treinamento que induzem execução paralela e com a métrica Critical Steps

Configuração e escala do treinamento

  • O modelo base Kimi K2 é uma arquitetura MoE de 1 trilhão de parâmetros pré-treinada com 15 trilhões de tokens de texto
  • Suporta comprimento de contexto de até 256k por meio de treinamento conjunto de contexto longo
  • Inclui dados multimodais diversos como imagens, vídeos, OCR, documentos e capturas de tela de SO

Avaliação e desempenho: resumo focado na comparação entre os principais modelos

  • O Kimi K2.5 foi avaliado em comparação, nas mesmas condições, com modelos comerciais (Claude Opus 4.5, GPT-5.2, Gemini 3 Pro) e modelos open source (DeepSeek-V3.2, Qwen3-VL-235B)
  • Todas as avaliações foram realizadas com temperature 1.0, top-p 0.95 e comprimento máximo de contexto de 256k
  • Benchmarks de raciocínio e conhecimento geral

    • No AIME 2025, o Kimi K2.5 registrou 96.1, superando Claude Opus 4.5 (92.8) e Gemini 3 Pro (95.0), e ficando próximo do GPT-5.2 (100)
    • Também manteve pontuações superiores às de Claude Opus 4.5 e Qwen3-VL em HMMT 2025 e IMO-AnswerBench
    • No GPQA-Diamond, marcou 87.6, nível semelhante ao Claude Opus 4.5 (87.0), confirmando desempenho superior ao de modelos open source
    • No LongBench v2, o Gemini 3 Pro obteve a maior pontuação, mas o Kimi K2.5 apresentou resultados competitivos frente a DeepSeek-V3.2 e Qwen3-VL
  • Programação e engenharia de software

    • No SWE-Bench Verified, o Kimi K2.5 marcou 76.8, similar ao DeepSeek-V3.2 (76.2) e acima do Qwen3-VL (73.1)
    • Também em SWE-Bench Pro e Multilingual, ficou abaixo dos modelos comerciais, mas se manteve entre os melhores no universo open source
    • No LiveCodeBench v6, registrou 85.0, acima de Claude Opus 4.5 (82.2) e Qwen3-VL (83.3)
    • Em PaperBench(CodeDev) e CyberGym, os modelos comerciais ainda lideram, mas o Kimi K2.5 mostra desempenho estável em nível utilizável na prática
  • Tarefas agênticas e baseadas em busca

    • No BrowseComp, atingiu 60.6 no modo de agente único, superando com ampla margem o Claude Opus 4.5 (37.0)
    • Com Agent Swarm aplicado, alcançou 78.4 no BrowseComp e 79.0 no WideSearch, confirmando melhora clara em relação ao agente único
    • No WideSearch, o Claude Opus 4.5 obteve pontuação maior no modo de agente único, mas na configuração com agentes paralelos o Kimi K2.5 leva vantagem
    • Também registrou resultados próximos aos modelos comerciais nas famílias DeepSearchQA e FinSearchComp
  • Compreensão visual, de documentos e de vídeo

    • Em MMMU-Pro, OCRBench, OmniDocBench 1.5 e outros, foi comparado diretamente ao Qwen3-VL e, no geral, manteve competitividade em raciocínio visual e compreensão de documentos
    • O GPT-5.2 apresentou taxa de falha de saída de cerca de 10% em algumas avaliações visuais, sendo pontuado de forma conservadora
    • Em benchmarks de vídeo curto e longo, o Kimi K2.5 mostrou desempenho consistente, com resultados mais estáveis que modelos centrados em imagem única
  • Avaliação geral

    • O Kimi K2.5 não alcança os melhores modelos comerciais em alguns indicadores, mas entre os modelos multimodais e agênticos open source apresenta o desempenho mais amplo e equilibrado
    • Em especial, com o Agent Swarm aplicado, fica claramente à frente em tarefas agênticas e de busca
    • Por reunir raciocínio, programação, visão e capacidades agênticas em um único modelo aberto, trata-se de um modelo agêntico geral realmente utilizável, não apenas experimental

Limitações e observações

  • Alguns modelos comerciais apresentaram taxa de falha de saída em benchmarks visuais, o que levou a pontuações conservadoras
  • Em tarefas agênticas longas, a diferença de desempenho varia bastante conforme a estratégia de gerenciamento de contexto
  • Alguns benchmarks de alto custo foram excluídos da avaliação devido a problemas de estabilidade de API

Divulgação e uso

  • Os checkpoints de pós-treinamento do Kimi K2.5 foram disponibilizados como open source
  • É um modelo base reutilizável para sistemas agênticos gerais, pesquisa multimodal e cargas reais de automação
  • A abordagem que não separa texto e visão, somada à estrutura paralela de agentes, pode representar um caminho prático rumo à General Agentic Intelligence

Ainda não há comentários.

Ainda não há comentários.