3 pontos por GN⁺ 2026-01-28 | 1 comentários | Compartilhar no WhatsApp
  • Kimi K2.5 é um modelo multimodal open source adicionalmente treinado com cerca de 1,5 trilhão de tokens visuais e de texto, integrando capacidades de programação e processamento visual
  • Por meio da arquitetura Agent Swarm, que controla em paralelo até 100 subagentes, executa tarefas complexas até 4,5 vezes mais rápido
  • Integrado ao Kimi Code e ao Kimi App, oferece diversas funções práticas como programação baseada em imagem e vídeo, depuração visual e automação de escritório
  • Em benchmarks internos, registrou ganhos significativos de desempenho em relação ao K2 em programação, visão e produtividade de escritório
  • Na comunidade open source, é avaliado como um modelo que demonstra progresso real em direção à AGI (inteligência artificial geral)

Visão geral do Kimi K2.5

  • O Kimi K2.5 é um modelo multimodal nativo baseado no modelo K2, com pré-treinamento adicional usando cerca de 1,5 trilhão de tokens mistos de visão e texto
    • Integra recursos de programação e visão, implementando o paradigma de agent swarm autônomo
  • Até 100 subagentes podem executar em paralelo até 1.500 chamadas de ferramentas, alcançando tempo de execução até 4,5 vezes menor em comparação com um agente único
  • Está disponível via Kimi.com, Kimi App, API e Kimi Code, com suporte aos modos Instant, Thinking, Agent e Agent Swarm (beta)

Integração entre programação e visão

  • O K2.5 é um modelo open source de programação com destaque em desenvolvimento frontend, capaz de gerar automaticamente UIs complexas como interfaces conversacionais e animações acionadas por scroll
  • Suporta programação visual baseada em imagem e vídeo, convertendo em código a intenção expressa visualmente pelo usuário
    • Como exemplo, pode reconstruir um site a partir de um vídeo ou encontrar o caminho mais curto (113.557 etapas) em uma imagem de labirinto usando o algoritmo BFS
  • O aprendizado conjunto em larga escala entre visão e texto melhora simultaneamente as capacidades visuais e linguísticas
  • No benchmark interno Kimi Code Bench, apresentou melhora consistente em relação ao K2 em tarefas multilíngues de programação, incluindo build, depuração, refatoração e testes
  • O Kimi Code integra-se ao terminal e a IDEs como VSCode, Cursor e Zed, com suporte a entrada de imagem e vídeo e migração automática de skills

Agent Swarm

  • O K2.5 Agent Swarm não é apenas uma expansão de agente único, mas uma estrutura colaborativa paralela, treinada com Parallel-Agent Reinforcement Learning (PARL)
    • Um agente orquestrador decompõe o trabalho em subtarefas paralelizáveis, e subagentes fixos executam essas tarefas simultaneamente
  • A função de recompensa induz inicialmente a exploração da paralelização e, gradualmente, passa a focar na qualidade da tarefa Q(τ)
  • Introduz a métrica centrada em latência chamada Critical Steps para avaliar a eficiência da execução paralela
  • Em avaliações internas, houve redução de 80% no tempo de execução end-to-end e melhora na capacidade de lidar com tarefas complexas de longa duração
    • Exemplo: na tarefa de encontrar criadores do YouTube em 100 nichos específicos, gera 100 subagentes em paralelo e consolida os resultados

Produtividade de escritório

  • O agente K2.5 oferece suporte à automação em larga escala de tarefas de escritório, processando de forma conversacional desde documentos e planilhas até PDFs e apresentações
  • Nos benchmarks internos AI Office Benchmark e General Agent Benchmark, apresentou melhorias de 59,3% e 24,3%, respectivamente
  • Executa tarefas avançadas como adicionar comentários no Word, modelagem financeira baseada em Pivot Table e escrita de fórmulas LaTeX em PDFs
  • Conclui em minutos tarefas longas como gerar um artigo de 10.000 palavras ou um documento de 100 páginas

Conclusão

  • O Kimi K2.5 mostra avanços em três áreas — programação baseada em visão, agent swarm e automação de escritório — demonstrando uma aproximação à AGI sob restrições do mundo real
  • No futuro, a empresa pretende redefinir os limites do trabalho do conhecimento por meio da expansão da agentic intelligence

Apêndice: principais resultados de benchmark

  • Comparado com GPT-5.2, Claude 4.5, Gemini 3 Pro e outros em 7 áreas, incluindo Reasoning, Vision, Coding e Agentic Search
    • HLE-Full w/ tools: 50.2 (GPT-5.2: 45.5)
    • MMMU-Pro: 78.5 (Gemini 3 Pro: 81.0)
    • SWE-Bench Verified: 76.8 (Claude 4.5: 80.9)
    • BrowseComp (Swarm Mode) : 78.4
  • Registrou desempenho de ponta na maioria dos benchmarks de visão, programação e busca agentic
  • Todos os experimentos foram realizados com contexto de 256k tokens, temperature=1.0 e top-p=0.95
  • O Kimi Vendor Verifier (KVV) permite verificar a precisão de serviços de terceiros

1 comentários

 
GN⁺ 2026-01-28
Comentários do Hacker News
  • Na página do Kimi-K2.5 no Hugging Face, dá para ver que é um modelo de 1 trilhão de parâmetros
    É baseado na licença MIT, mas com a condição adicional de que serviços comerciais com mais de 100 milhões de usuários ativos mensais ou mais de US$ 20 milhões de receita exibam “Kimi K2.5” na UI

    • 1 trilhão... mesmo em int4, isso provavelmente exigiria algo como meio terabyte de VRAM
      É tecnicamente impressionante, mas como de qualquer forma não dá para rodar isso em casa, parece que o risco caiu pela metade por terem liberado de graça
    • Os desenvolvedores do Cursor tentaram esconder que o modelo Composer é baseado em GLM, então isso deve ser uma notícia bem incômoda para eles
    • Fico curioso se thinking, instruct, agent e agent swarm(beta) do Kimi K2.5 são todos open source
      Vi menção a agent swarm na API, mas queria saber se isso inclui até os pesos
    • Ao ver a cláusula “se a receita passar de US$ 20 milhões, exiba Kimi K2.5 na UI”, fiquei pensando se não seria melhor simplesmente dizer “pague US$ 1 milhão
  • O “momento Deepseek” foi exatamente há um ano
    Comparando com aquela época, hoje realmente há muita tecnologia sendo liberada de graça, e isso passa uma sensação de liberdade totalmente diferente da abordagem fechada da OpenAI

    • Mesmo depois do DeepSeekR1, a velocidade de evolução dos modelos chineses como v3-0324, v3.1, v3.1-terminus e v3.2-speciale é impressionante
      Incluindo GLM 4.7 flash, Minimax-M2 e a série Qwen, a variedade é enorme
      Faz 2 anos que cancelei minhas assinaturas da OpenAI e da Anthropic e não sinto falta nenhuma
    • Não é coincidência. Empresas chinesas costumam fazer grandes lançamentos antes do Ano-Novo Lunar, então é bem possível que saia mais coisa antes de 17 de fevereiro
    • Fico me perguntando por que liberariam um modelo tão enorme de graça. Dá curiosidade sobre qual seria o modelo de negócios
    • Acho que o Deepseek, na prática, era um projeto focado em marketing
      Até no Reddit apareciam comentários estranhamente “pro-deepseek” o tempo todo. Quase um marketing no estilo Apple
    • Mas modelos assim também podem ser mal utilizados em ataques de segurança ou biológicos
      Empresas chinesas provavelmente não estão liberando isso por amor à humanidade
  • Compartilhando alguns sites úteis para comparar vários modelos

  • O Kimi K2.5 executa até 100 subagentes em paralelo e processa até 1.500 chamadas de ferramentas em paralelo
    O interessante não é só a chamada de ferramentas em si, mas o fato de terem treinado a própria orquestração de agentes com aprendizado por reforço (RL)

    • Mas 1.500 chamadas de ferramentas são um pesadelo de custo. Com apenas algumas dezenas de etapas a margem já vai embora; sem dinheiro de VC, isso parece insustentável
    • Fico curioso se “self-direct an agent swarm” é uma função interna do modelo ou algo implementado no nível do IDE/serviço
      Normalmente, o modelo só produz algo como “call tool X”, o IDE executa e depois devolve o resultado
    • Agentes paralelos são um truque simples, mas poderoso
      Tenho visto um efeito parecido com o TeammateTool do Claude Code
  • Além do K2.5, a Moonshot AI também lançou o Kimi Code
    É um agente de programação para terminal evoluído a partir do Kimi CLI; usei desde o mês passado e ele parece bem estável
    GitHub: MoonshotAI/kimi-cli

    • Não é só um agente de programação; ele também faz o papel de shell
      Tem hook para zsh, então dá para alternar para o modo agente de qualquer lugar
    • Fico curioso se ele suporta swarm e também Opencode
    • Também queria saber como fica o desempenho em comparação com CC
  • O interessante no K2.5 é que ele foi treinado para criar subagentes automaticamente e montar um swarm
    É parecido com os subagentes dinâmicos do Claude Code, mas consegue lidar de forma autônoma com muito mais agentes
    Fico na expectativa se a Claude também está treinando algo parecido e se isso vai aparecer na próxima versão

  • Recentemente, modelos chineses vêm usando o Claude Opus como referência de benchmark
    Tanto o Qwen3 max thinking quanto o Kimi K2.5 estão sendo comparados com Opus, e não com Sonnet. Estão chegando lá quase na mesma velocidade

    • No clocks.brianmoore.com, o K2 é um dos poucos modelos que passou perfeitamente no teste do relógio
    • Os laboratórios chineses seguem um padrão de destilar modelos SOTA ocidentais e alcançá-los em poucos meses
    • Nos benchmarks parecem parecidos, mas em usabilidade real os modelos da Anthropic ainda estão na frente
    • No fim, o mais importante são os cenários reais de uso. Só pela pontuação de benchmark é difícil julgar
  • Muita gente dizia que o Kimi K2 tinha alta inteligência emocional (emotional intelligence)
    Fico curioso para ver se o K2.5 mantém essa característica

    • Tive a mesma impressão. Tenho muita curiosidade sobre como implementaram esse tipo de resposta emocional
    • Pretendo testar em mafia-arena.com
    • É subjetivo, mas parecia mais humano do que Gemini 3, GPT 5.2 e Opus 4.5
  • A pontuação no CCP-bench melhorou bastante no K2.5
    Veja esta imagem relacionada

  • Parabéns à equipe do Kimi pelo resultado
    Mas ainda fico curioso sobre por que o Claude continua em 1º lugar em programação. Será por treinamento especializado em código ou pela qualidade geral do treinamento?
    Tomara que alguém consiga superar o Opus 4.5 em programação

    • A diferença nos benchmarks quase não significa nada. O ruído em ambientes reais de programação é muito maior
      Na verdade, há casos em que os modelos parecem até overfitted aos benchmarks
      Usei tanto GPT5.2 quanto Opus 4.5, e no desempenho real de programação eles são quase iguais
      Além disso, o K2.5 custa cerca de 1/5 dos modelos topo de linha, então é promissor
    • Em vez do Opus, eu uso Gemini Pro, porque ele redesenha melhor a estrutura do código e reflete melhor os requisitos
      O Opus frequentemente faz abstrações desnecessárias ou hardcoding
    • O Gemini 3 Pro é especialmente muito melhor em codebases grandes
    • O Opus 4.5 foi lançado há dois meses, e isso é resultado de a Anthropic ter focado especialmente em desempenho para programação