Kimi revela o Kimi K2.5, modelo open source visual SOTA e agentic

(kimi.com)

3 pontos por GN⁺ 2026-01-28 | 1 comentários | Compartilhar no WhatsApp

Kimi K2.5 é um modelo multimodal open source adicionalmente treinado com cerca de 1,5 trilhão de tokens visuais e de texto, integrando capacidades de programação e processamento visual
Por meio da arquitetura Agent Swarm, que controla em paralelo até 100 subagentes, executa tarefas complexas até 4,5 vezes mais rápido
Integrado ao Kimi Code e ao Kimi App, oferece diversas funções práticas como programação baseada em imagem e vídeo, depuração visual e automação de escritório
Em benchmarks internos, registrou ganhos significativos de desempenho em relação ao K2 em programação, visão e produtividade de escritório
Na comunidade open source, é avaliado como um modelo que demonstra progresso real em direção à AGI (inteligência artificial geral)

Visão geral do Kimi K2.5

O Kimi K2.5 é um modelo multimodal nativo baseado no modelo K2, com pré-treinamento adicional usando cerca de 1,5 trilhão de tokens mistos de visão e texto
- Integra recursos de programação e visão, implementando o paradigma de agent swarm autônomo
Até 100 subagentes podem executar em paralelo até 1.500 chamadas de ferramentas, alcançando tempo de execução até 4,5 vezes menor em comparação com um agente único
Está disponível via Kimi.com, Kimi App, API e Kimi Code, com suporte aos modos Instant, Thinking, Agent e Agent Swarm (beta)

Integração entre programação e visão

O K2.5 é um modelo open source de programação com destaque em desenvolvimento frontend, capaz de gerar automaticamente UIs complexas como interfaces conversacionais e animações acionadas por scroll
Suporta programação visual baseada em imagem e vídeo, convertendo em código a intenção expressa visualmente pelo usuário
- Como exemplo, pode reconstruir um site a partir de um vídeo ou encontrar o caminho mais curto (113.557 etapas) em uma imagem de labirinto usando o algoritmo BFS
O aprendizado conjunto em larga escala entre visão e texto melhora simultaneamente as capacidades visuais e linguísticas
No benchmark interno Kimi Code Bench, apresentou melhora consistente em relação ao K2 em tarefas multilíngues de programação, incluindo build, depuração, refatoração e testes
O Kimi Code integra-se ao terminal e a IDEs como VSCode, Cursor e Zed, com suporte a entrada de imagem e vídeo e migração automática de skills

Agent Swarm

O K2.5 Agent Swarm não é apenas uma expansão de agente único, mas uma estrutura colaborativa paralela, treinada com Parallel-Agent Reinforcement Learning (PARL)
- Um agente orquestrador decompõe o trabalho em subtarefas paralelizáveis, e subagentes fixos executam essas tarefas simultaneamente
A função de recompensa induz inicialmente a exploração da paralelização e, gradualmente, passa a focar na qualidade da tarefa Q(τ)
Introduz a métrica centrada em latência chamada Critical Steps para avaliar a eficiência da execução paralela
Em avaliações internas, houve redução de 80% no tempo de execução end-to-end e melhora na capacidade de lidar com tarefas complexas de longa duração
- Exemplo: na tarefa de encontrar criadores do YouTube em 100 nichos específicos, gera 100 subagentes em paralelo e consolida os resultados

Produtividade de escritório

O agente K2.5 oferece suporte à automação em larga escala de tarefas de escritório, processando de forma conversacional desde documentos e planilhas até PDFs e apresentações
Nos benchmarks internos AI Office Benchmark e General Agent Benchmark, apresentou melhorias de 59,3% e 24,3%, respectivamente
Executa tarefas avançadas como adicionar comentários no Word, modelagem financeira baseada em Pivot Table e escrita de fórmulas LaTeX em PDFs
Conclui em minutos tarefas longas como gerar um artigo de 10.000 palavras ou um documento de 100 páginas

Conclusão

O Kimi K2.5 mostra avanços em três áreas — programação baseada em visão, agent swarm e automação de escritório — demonstrando uma aproximação à AGI sob restrições do mundo real
No futuro, a empresa pretende redefinir os limites do trabalho do conhecimento por meio da expansão da agentic intelligence

Apêndice: principais resultados de benchmark

Comparado com GPT-5.2, Claude 4.5, Gemini 3 Pro e outros em 7 áreas, incluindo Reasoning, Vision, Coding e Agentic Search
- HLE-Full w/ tools: 50.2 (GPT-5.2: 45.5)
- MMMU-Pro: 78.5 (Gemini 3 Pro: 81.0)
- SWE-Bench Verified: 76.8 (Claude 4.5: 80.9)
- BrowseComp (Swarm Mode) : 78.4
Registrou desempenho de ponta na maioria dos benchmarks de visão, programação e busca agentic
Todos os experimentos foram realizados com contexto de 256k tokens, temperature=1.0 e top-p=0.95
O Kimi Vendor Verifier (KVV) permite verificar a precisão de serviços de terceiros

1 comentários

GN⁺ 2026-01-28

Comentários do Hacker News

Na página do Kimi-K2.5 no Hugging Face, dá para ver que é um modelo de 1 trilhão de parâmetros
É baseado na licença MIT, mas com a condição adicional de que serviços comerciais com mais de 100 milhões de usuários ativos mensais ou mais de US$ 20 milhões de receita exibam “Kimi K2.5” na UI
- 1 trilhão... mesmo em int4, isso provavelmente exigiria algo como meio terabyte de VRAM
  É tecnicamente impressionante, mas como de qualquer forma não dá para rodar isso em casa, parece que o risco caiu pela metade por terem liberado de graça
- Os desenvolvedores do Cursor tentaram esconder que o modelo Composer é baseado em GLM, então isso deve ser uma notícia bem incômoda para eles
- Fico curioso se thinking, instruct, agent e agent swarm(beta) do Kimi K2.5 são todos open source
  Vi menção a agent swarm na API, mas queria saber se isso inclui até os pesos
- Ao ver a cláusula “se a receita passar de US$ 20 milhões, exiba Kimi K2.5 na UI”, fiquei pensando se não seria melhor simplesmente dizer “pague US$ 1 milhão”
O “momento Deepseek” foi exatamente há um ano
Comparando com aquela época, hoje realmente há muita tecnologia sendo liberada de graça, e isso passa uma sensação de liberdade totalmente diferente da abordagem fechada da OpenAI
- Mesmo depois do DeepSeekR1, a velocidade de evolução dos modelos chineses como v3-0324, v3.1, v3.1-terminus e v3.2-speciale é impressionante
  Incluindo GLM 4.7 flash, Minimax-M2 e a série Qwen, a variedade é enorme
  Faz 2 anos que cancelei minhas assinaturas da OpenAI e da Anthropic e não sinto falta nenhuma
- Não é coincidência. Empresas chinesas costumam fazer grandes lançamentos antes do Ano-Novo Lunar, então é bem possível que saia mais coisa antes de 17 de fevereiro
- Fico me perguntando por que liberariam um modelo tão enorme de graça. Dá curiosidade sobre qual seria o modelo de negócios
- Acho que o Deepseek, na prática, era um projeto focado em marketing
  Até no Reddit apareciam comentários estranhamente “pro-deepseek” o tempo todo. Quase um marketing no estilo Apple
- Mas modelos assim também podem ser mal utilizados em ataques de segurança ou biológicos
  Empresas chinesas provavelmente não estão liberando isso por amor à humanidade
Compartilhando alguns sites úteis para comparar vários modelos
- lmarena.ai/leaderboard — confrontos ELO entre modelos
- dashboard.safe.ai — dashboard da CAIS
- clocks.brianmoore.com — comparação de desenho de relógios pelos modelos
- eqbench.com — benchmark de inteligência emocional
- ocrarena.ai/battle — disputa de OCR
- mafia-arena.com — disputa em jogo de máfia
- openrouter.ai/rankings — participação baseada no OpenRouter
O Kimi K2.5 executa até 100 subagentes em paralelo e processa até 1.500 chamadas de ferramentas em paralelo
O interessante não é só a chamada de ferramentas em si, mas o fato de terem treinado a própria orquestração de agentes com aprendizado por reforço (RL)
- Mas 1.500 chamadas de ferramentas são um pesadelo de custo. Com apenas algumas dezenas de etapas a margem já vai embora; sem dinheiro de VC, isso parece insustentável
- Fico curioso se “self-direct an agent swarm” é uma função interna do modelo ou algo implementado no nível do IDE/serviço
  Normalmente, o modelo só produz algo como “call tool X”, o IDE executa e depois devolve o resultado
- Agentes paralelos são um truque simples, mas poderoso
  Tenho visto um efeito parecido com o TeammateTool do Claude Code
Além do K2.5, a Moonshot AI também lançou o Kimi Code
É um agente de programação para terminal evoluído a partir do Kimi CLI; usei desde o mês passado e ele parece bem estável
GitHub: MoonshotAI/kimi-cli
- Não é só um agente de programação; ele também faz o papel de shell
  Tem hook para zsh, então dá para alternar para o modo agente de qualquer lugar
- Fico curioso se ele suporta swarm e também Opencode
- Também queria saber como fica o desempenho em comparação com CC
O interessante no K2.5 é que ele foi treinado para criar subagentes automaticamente e montar um swarm
É parecido com os subagentes dinâmicos do Claude Code, mas consegue lidar de forma autônoma com muito mais agentes
Fico na expectativa se a Claude também está treinando algo parecido e se isso vai aparecer na próxima versão
Recentemente, modelos chineses vêm usando o Claude Opus como referência de benchmark
Tanto o Qwen3 max thinking quanto o Kimi K2.5 estão sendo comparados com Opus, e não com Sonnet. Estão chegando lá quase na mesma velocidade
- No clocks.brianmoore.com, o K2 é um dos poucos modelos que passou perfeitamente no teste do relógio
- Os laboratórios chineses seguem um padrão de destilar modelos SOTA ocidentais e alcançá-los em poucos meses
- Nos benchmarks parecem parecidos, mas em usabilidade real os modelos da Anthropic ainda estão na frente
- No fim, o mais importante são os cenários reais de uso. Só pela pontuação de benchmark é difícil julgar
Muita gente dizia que o Kimi K2 tinha alta inteligência emocional (emotional intelligence)
Fico curioso para ver se o K2.5 mantém essa característica
- Tive a mesma impressão. Tenho muita curiosidade sobre como implementaram esse tipo de resposta emocional
- Pretendo testar em mafia-arena.com
- É subjetivo, mas parecia mais humano do que Gemini 3, GPT 5.2 e Opus 4.5
A pontuação no CCP-bench melhorou bastante no K2.5
Veja esta imagem relacionada
Parabéns à equipe do Kimi pelo resultado
Mas ainda fico curioso sobre por que o Claude continua em 1º lugar em programação. Será por treinamento especializado em código ou pela qualidade geral do treinamento?
Tomara que alguém consiga superar o Opus 4.5 em programação
- A diferença nos benchmarks quase não significa nada. O ruído em ambientes reais de programação é muito maior
  Na verdade, há casos em que os modelos parecem até overfitted aos benchmarks
  Usei tanto GPT5.2 quanto Opus 4.5, e no desempenho real de programação eles são quase iguais
  Além disso, o K2.5 custa cerca de 1/5 dos modelos topo de linha, então é promissor
- Em vez do Opus, eu uso Gemini Pro, porque ele redesenha melhor a estrutura do código e reflete melhor os requisitos
  O Opus frequentemente faz abstrações desnecessárias ou hardcoding
- O Gemini 3 Pro é especialmente muito melhor em codebases grandes
- O Opus 4.5 foi lançado há dois meses, e isso é resultado de a Anthropic ter focado especialmente em desempenho para programação

Kimi revela o Kimi K2.5, modelo open source visual SOTA e agentic

Visão geral do Kimi K2.5

Integração entre programação e visão

Agent Swarm

Produtividade de escritório

Conclusão

Apêndice: principais resultados de benchmark

Leituras relacionadas

1 comentários

Comentários do Hacker News