- Kimi K2.5 é um modelo multimodal open source adicionalmente treinado com cerca de 1,5 trilhão de tokens visuais e de texto, integrando capacidades de programação e processamento visual
- Por meio da arquitetura Agent Swarm, que controla em paralelo até 100 subagentes, executa tarefas complexas até 4,5 vezes mais rápido
- Integrado ao Kimi Code e ao Kimi App, oferece diversas funções práticas como programação baseada em imagem e vídeo, depuração visual e automação de escritório
- Em benchmarks internos, registrou ganhos significativos de desempenho em relação ao K2 em programação, visão e produtividade de escritório
- Na comunidade open source, é avaliado como um modelo que demonstra progresso real em direção à AGI (inteligência artificial geral)
Visão geral do Kimi K2.5
- O Kimi K2.5 é um modelo multimodal nativo baseado no modelo K2, com pré-treinamento adicional usando cerca de 1,5 trilhão de tokens mistos de visão e texto
- Integra recursos de programação e visão, implementando o paradigma de agent swarm autônomo
- Até 100 subagentes podem executar em paralelo até 1.500 chamadas de ferramentas, alcançando tempo de execução até 4,5 vezes menor em comparação com um agente único
- Está disponível via Kimi.com, Kimi App, API e Kimi Code, com suporte aos modos Instant, Thinking, Agent e Agent Swarm (beta)
Integração entre programação e visão
- O K2.5 é um modelo open source de programação com destaque em desenvolvimento frontend, capaz de gerar automaticamente UIs complexas como interfaces conversacionais e animações acionadas por scroll
- Suporta programação visual baseada em imagem e vídeo, convertendo em código a intenção expressa visualmente pelo usuário
- Como exemplo, pode reconstruir um site a partir de um vídeo ou encontrar o caminho mais curto (113.557 etapas) em uma imagem de labirinto usando o algoritmo BFS
- O aprendizado conjunto em larga escala entre visão e texto melhora simultaneamente as capacidades visuais e linguísticas
- No benchmark interno Kimi Code Bench, apresentou melhora consistente em relação ao K2 em tarefas multilíngues de programação, incluindo build, depuração, refatoração e testes
- O Kimi Code integra-se ao terminal e a IDEs como VSCode, Cursor e Zed, com suporte a entrada de imagem e vídeo e migração automática de skills
Agent Swarm
- O K2.5 Agent Swarm não é apenas uma expansão de agente único, mas uma estrutura colaborativa paralela, treinada com Parallel-Agent Reinforcement Learning (PARL)
- Um agente orquestrador decompõe o trabalho em subtarefas paralelizáveis, e subagentes fixos executam essas tarefas simultaneamente
- A função de recompensa induz inicialmente a exploração da paralelização e, gradualmente, passa a focar na qualidade da tarefa Q(τ)
- Introduz a métrica centrada em latência chamada Critical Steps para avaliar a eficiência da execução paralela
- Em avaliações internas, houve redução de 80% no tempo de execução end-to-end e melhora na capacidade de lidar com tarefas complexas de longa duração
- Exemplo: na tarefa de encontrar criadores do YouTube em 100 nichos específicos, gera 100 subagentes em paralelo e consolida os resultados
Produtividade de escritório
- O agente K2.5 oferece suporte à automação em larga escala de tarefas de escritório, processando de forma conversacional desde documentos e planilhas até PDFs e apresentações
- Nos benchmarks internos AI Office Benchmark e General Agent Benchmark, apresentou melhorias de 59,3% e 24,3%, respectivamente
- Executa tarefas avançadas como adicionar comentários no Word, modelagem financeira baseada em Pivot Table e escrita de fórmulas LaTeX em PDFs
- Conclui em minutos tarefas longas como gerar um artigo de 10.000 palavras ou um documento de 100 páginas
Conclusão
- O Kimi K2.5 mostra avanços em três áreas — programação baseada em visão, agent swarm e automação de escritório — demonstrando uma aproximação à AGI sob restrições do mundo real
- No futuro, a empresa pretende redefinir os limites do trabalho do conhecimento por meio da expansão da agentic intelligence
Apêndice: principais resultados de benchmark
- Comparado com GPT-5.2, Claude 4.5, Gemini 3 Pro e outros em 7 áreas, incluindo Reasoning, Vision, Coding e Agentic Search
- HLE-Full w/ tools: 50.2 (GPT-5.2: 45.5)
- MMMU-Pro: 78.5 (Gemini 3 Pro: 81.0)
- SWE-Bench Verified: 76.8 (Claude 4.5: 80.9)
- BrowseComp (Swarm Mode) : 78.4
- Registrou desempenho de ponta na maioria dos benchmarks de visão, programação e busca agentic
- Todos os experimentos foram realizados com contexto de 256k tokens,
temperature=1.0 e top-p=0.95
- O Kimi Vendor Verifier (KVV) permite verificar a precisão de serviços de terceiros
1 comentários
Comentários do Hacker News
Na página do Kimi-K2.5 no Hugging Face, dá para ver que é um modelo de 1 trilhão de parâmetros
É baseado na licença MIT, mas com a condição adicional de que serviços comerciais com mais de 100 milhões de usuários ativos mensais ou mais de US$ 20 milhões de receita exibam “Kimi K2.5” na UI
É tecnicamente impressionante, mas como de qualquer forma não dá para rodar isso em casa, parece que o risco caiu pela metade por terem liberado de graça
Vi menção a agent swarm na API, mas queria saber se isso inclui até os pesos
O “momento Deepseek” foi exatamente há um ano
Comparando com aquela época, hoje realmente há muita tecnologia sendo liberada de graça, e isso passa uma sensação de liberdade totalmente diferente da abordagem fechada da OpenAI
Incluindo GLM 4.7 flash, Minimax-M2 e a série Qwen, a variedade é enorme
Faz 2 anos que cancelei minhas assinaturas da OpenAI e da Anthropic e não sinto falta nenhuma
Até no Reddit apareciam comentários estranhamente “pro-deepseek” o tempo todo. Quase um marketing no estilo Apple
Empresas chinesas provavelmente não estão liberando isso por amor à humanidade
Compartilhando alguns sites úteis para comparar vários modelos
O Kimi K2.5 executa até 100 subagentes em paralelo e processa até 1.500 chamadas de ferramentas em paralelo
O interessante não é só a chamada de ferramentas em si, mas o fato de terem treinado a própria orquestração de agentes com aprendizado por reforço (RL)
Normalmente, o modelo só produz algo como “call tool X”, o IDE executa e depois devolve o resultado
Tenho visto um efeito parecido com o TeammateTool do Claude Code
Além do K2.5, a Moonshot AI também lançou o Kimi Code
É um agente de programação para terminal evoluído a partir do Kimi CLI; usei desde o mês passado e ele parece bem estável
GitHub: MoonshotAI/kimi-cli
Tem hook para zsh, então dá para alternar para o modo agente de qualquer lugar
O interessante no K2.5 é que ele foi treinado para criar subagentes automaticamente e montar um swarm
É parecido com os subagentes dinâmicos do Claude Code, mas consegue lidar de forma autônoma com muito mais agentes
Fico na expectativa se a Claude também está treinando algo parecido e se isso vai aparecer na próxima versão
Recentemente, modelos chineses vêm usando o Claude Opus como referência de benchmark
Tanto o Qwen3 max thinking quanto o Kimi K2.5 estão sendo comparados com Opus, e não com Sonnet. Estão chegando lá quase na mesma velocidade
Muita gente dizia que o Kimi K2 tinha alta inteligência emocional (emotional intelligence)
Fico curioso para ver se o K2.5 mantém essa característica
A pontuação no CCP-bench melhorou bastante no K2.5
Veja esta imagem relacionada
Parabéns à equipe do Kimi pelo resultado
Mas ainda fico curioso sobre por que o Claude continua em 1º lugar em programação. Será por treinamento especializado em código ou pela qualidade geral do treinamento?
Tomara que alguém consiga superar o Opus 4.5 em programação
Na verdade, há casos em que os modelos parecem até overfitted aos benchmarks
Usei tanto GPT5.2 quanto Opus 4.5, e no desempenho real de programação eles são quase iguais
Além disso, o K2.5 custa cerca de 1/5 dos modelos topo de linha, então é promissor
O Opus frequentemente faz abstrações desnecessárias ou hardcoding