- Modelo que elevou o desempenho em codificação de longo percurso e tarefas no estilo agente, reforçando a capacidade de generalização em várias linguagens e em frontend, devops e otimização de desempenho de forma ampla
- Trata tarefas complexas de engenharia com codificação de execução contínua e, após milhares de chamadas de ferramenta e mais de 12 horas de execução contínua, registrou grande aumento de throughput na otimização de inferência em Zig e na reformulação completa do exchange-core
- Converte prompts simples em uma interface frontend completa e também usa ferramentas de geração de imagem e vídeo, oferecendo suporte a workflows full-stack simples com autenticação e operações de banco de dados
- Expandiu a estrutura Agent Swarm para 300 subagentes e 4.000 etapas de coordenação, executando em paralelo tarefas de busca, pesquisa, redação de documentos e criação de arquivos, e transformando formato e estilo de PDFs, slides, planilhas e documentos do Word em skills reutilizáveis
- Ampliou o escopo para agentes proativos e Claw Groups, realizando operação autônoma de longa duração, colaboração entre múltiplos agentes e redistribuição de tarefas, com melhoria confirmada em codificação, chamadas de ferramenta e confiabilidade em execuções longas em benchmarks e testes beta corporativos
Codificação de longo percurso
- Confirmada melhora de desempenho em tarefas de codificação de longo percurso, reforçando a capacidade de generalização em várias linguagens como Rust, Go e Python, e em diversas tarefas como frontend, devops e otimização de desempenho
- No benchmark interno de codificação Kimi Code Bench, registrou grande melhoria em relação ao Kimi K2.5 em tarefas complexas end-to-end
- Executa codificação de execução contínua em tarefas complexas de engenharia
- Download e implantação bem-sucedidos do modelo Qwen3.5-0.8B em ambiente local Mac
- Implementou e otimizou inferência do modelo em Zig, uma linguagem relativamente especializada, comprovando desempenho de generalização fora de distribuição
- Após mais de 4.000 chamadas de ferramenta, mais de 12 horas de execução contínua e 14 iterações, elevou o throughput de cerca de 15 tokens/sec para cerca de 193 tokens/sec
- A velocidade final ficou cerca de 20% mais rápida que o LM Studio
- Realizou uma reformulação completa do mecanismo open source de matching financeiro de 8 anos, exchange-core
- Durante 13 horas de execução, repetiu 12 estratégias de otimização e ajustou com precisão mais de 4.000 linhas de código com mais de 1.000 chamadas de ferramenta
- Identificou gargalos ocultos por meio de análise de flame graph de CPU e alocação de memória
- Reconfigurou a topologia de threads do núcleo de 4ME+2RE para 2ME+1RE
- Alcançou aumento de 185% no throughput mediano (0.43→1.24 MT/s) e aumento de 133% no throughput de desempenho (1.23→2.86 MT/s) em um engine já próximo do limite de desempenho
- As avaliações corporativas do beta test também mostraram várias análises positivas sobre confiabilidade de codificação de longo prazo e qualidade de chamadas de ferramenta
- A Baseten mencionou desempenho em tarefas de codificação em nível semelhante ao de modelos proprietários líderes, forte qualidade de chamadas de ferramenta baseada na compreensão de frameworks de terceiros e adequação para tarefas de engenharia complexas e de longa duração
- A Blackbox citou um novo padrão para modelos open source em workflows de codificação longos e orientados a agentes, tratamento de tarefas complexas em múltiplas etapas, alta qualidade de código, estabilidade em sessões longas e capacidade de detectar bugs não óbvios
- A CodeBuddy registrou aumento de 12% na precisão de geração de código, melhora de 18% na estabilidade em contexto longo e taxa de sucesso de chamadas de ferramenta de 96,60% em relação ao K2.5
- A Factory reportou melhora de 15% em avaliação comparativa lado a lado com seu benchmark interno
- A Fireworks citou confiabilidade em longos trechos e capacidade de seguir instruções como os maiores pontos de melhoria
- A Hermes Agent mencionou maior integração entre chamadas de ferramenta e loops de agente, melhoria em codificação e ampliação do alcance criativo
- A Kilo mencionou desempenho em nível SOTA com baixo custo e força em tarefas de contexto longo em toda a codebase
- A Ollama mencionou adequação para codificação e ferramentas de agente, estabilidade em sessões longas e multinível, e integração imediata com integrações existentes
- A OpenCode mencionou estabilidade na decomposição de tarefas e nas chamadas de ferramenta, redução do overhead iterativo e confiabilidade da experiência end-to-end
- A Qoder mencionou aumento na frequência de chamadas de ferramenta e de modelo, maior proatividade durante a execução de tarefas e redução de interrupções e latência para o usuário
- A Vercel mencionou melhora de mais de 50% no benchmark de Next.js, desempenho entre os melhores da plataforma e adequação para codificação orientada a agentes e geração de frontend com boa relação custo-benefício
Design centrado em codificação
- Com base em forte capacidade de codificação, é possível transformar prompts simples em uma interface frontend completa
- Gera layouts estruturados com hero section estética, elementos interativos e animações ricas, incluindo efeitos acionados por rolagem
- Com base na capacidade de usar ferramentas de geração de imagem e vídeo, oferece suporte à criação de assets visualmente consistentes
- Contribui para criar hero sections mais chamativas e de maior qualidade
- Vai além do frontend estático e se estende a workflows full-stack simples
- Inclui autenticação, interação do usuário e operações de banco de dados
- Suporta casos de uso leves, como histórico de transações ou gerenciamento de sessão
- Construção do benchmark interno Kimi Design Bench
- Composto por quatro categorias: Visual Input Tasks, Landing Page Construction, Full-Stack Application Development e General Creative Programming
- Registrou resultados promissores e bom desempenho em várias categorias em comparação com o Google AI Studio
- Fornecidos exemplos produzidos pelo K2.6 Agent
- Resultados gerados com um único prompt e harness/ferramentas pré-configurados
- No aspecto estético, incluem belo design frontend com interações ricas
- No aspecto funcional, incluem banco de dados embutido e autenticação
- No uso de ferramentas, incluem websites refinados gerados com ferramentas de imagem e vídeo
Agent Swarm aprimorado
- Adota uma estrutura focada não apenas em escala vertical, mas em escala horizontal
- O Agent Swarm decompõe dinamicamente tarefas em subtarefas heterogêneas, que são executadas em paralelo por agentes especializados em domínio gerados por ele próprio
- Com base no research preview do K2.5 Agent Swarm, o Kimi K2.6 Agent Swarm apresenta um salto qualitativo na experiência
- Combina busca ampla com pesquisa aprofundada
- Combina análise documental em larga escala com redação longa
- Executa em paralelo a geração de conteúdo em vários formatos
- Em uma única execução autônoma, entrega resultados end-to-end abrangendo documentos, websites, slides e planilhas
- Ampliação da escala de expansão horizontal da arquitetura
- 300 subagentes executam 4.000 etapas de coordenação simultaneamente
- Grande expansão em relação aos 100 subagentes e 1.500 etapas do K2.5
- A paralelização em larga escala reduz a latência end-to-end, melhora a qualidade da saída e amplia os limites operacionais do Agent Swarm
- Arquivos de alta qualidade, como PDF, planilhas, slides e documentos do Word, podem ser convertidos em Skills
- Captura e preserva as características de estrutura e estilo dos documentos
- Permite reproduzir a mesma qualidade e o mesmo formato em trabalhos posteriores
- Vários exemplos de tarefas apresentados
- Projetou e executou 5 estratégias quantitativas para 100 ativos globais de semicondutores, extraiu um PPT no estilo McKinsey como skill reutilizável e forneceu uma planilha detalhada de modelagem e material completo de apresentação executiva
- Converteu um artigo de astrofísica de alta qualidade com ricos dados visuais em skill acadêmica reutilizável, extraiu o fluxo de raciocínio e o método de visualização, e gerou um artigo de pesquisa de 40 páginas e 7.000 palavras, um dataset estruturado com mais de 20.000 itens e 14 gráficos em nível astronômico
- Com base em um currículo enviado, gerou 100 subagentes para combinar 100 vagas relevantes na Califórnia, fornecendo um dataset estruturado de oportunidades e 100 currículos personalizados
- Identificou 30 lojas de varejo em Los Angeles sem site oficial no Google Maps e gerou, para cada uma, uma landing page focada em conversão
Agentes proativos
- Registrou forte desempenho em agentes autônomos e proativos como OpenClaw e Hermes
- Suporta o tipo de operação contínua 24 horas por dia, 7 dias por semana em várias aplicações
- Suporta workflows distintos da simples interação baseada em chat
- É necessário realizar gerenciamento de agenda, execução de código e orquestração de tarefas entre plataformas como agente persistente em segundo plano
- A equipe de infraestrutura de RL operou um agente baseado no K2.6 de forma autônoma por 5 dias
- Responsável por monitoramento, resposta a incidentes e operação do sistema
- Comprovou manutenção de contexto persistente, tratamento de tarefas multithread e execução de todo o ciclo, do alerta à resolução
- Mencionou a existência de logs de tarefas com remoção de informações sensíveis
- Medidas de melhoria de confiabilidade em ambiente real
- Interpretação de API mais precisa
- Desempenho mais estável em execuções prolongadas
- Maior percepção de segurança em tarefas de pesquisa de longa duração
- Quantificou a melhora de desempenho com a suíte de avaliação interna Claw Bench
- Inclui cinco áreas: Coding Tasks, IM Ecosystem Integration, Information Research & Analysis, Scheduled Task Management e Memory Utilization
- Em todos os indicadores, houve grande melhora na taxa de conclusão de tarefas e na precisão das chamadas de ferramenta em relação ao Kimi K2.5
- Melhorias particularmente fortes em workflows que exigem operação autônoma contínua sem supervisão humana
Bring Your Own Agents
- Com base em forte capacidade de orquestração, expande agentes proativos para Claw Groups
- Fornece um research preview como uma nova forma de implementação da arquitetura Agent Swarm
- Acolhe um ecossistema aberto e heterogêneo
- Vários agentes e humanos atuam juntos como colaboradores reais
- O usuário pode integrar agentes a partir de qualquer dispositivo e executados em qualquer modelo
- Cada agente possui seu próprio conjunto de ferramentas, skills e contexto de memória persistente
- Agentes em ambientes diversos, como notebook local, dispositivo móvel e instância em nuvem, são integrados naturalmente a um espaço operacional compartilhado
- No centro, o Kimi K2.6 atua como coordenador adaptativo
- Distribui tarefas dinamicamente com base no perfil de skills e nas ferramentas disponíveis de cada agente
- Otimiza o trabalho de acordo com as capacidades adequadas
- Quando detecta falha ou bloqueio de um agente, redistribui tarefas ou recria subtarefas
- Gerencia ativamente todo o ciclo de vida dos resultados, do início à verificação e conclusão
- Inclui casos de uso próprios dos Claw Groups
- Usa internamente uma equipe de marketing de agentes para refinar na prática workflows humano-agente
- Agentes especializados como Demo Makers, Benchmark Makers, Social Media Agents e Video Makers trabalham em conjunto
- Opera produção de conteúdo e campanhas de lançamento end-to-end
- O K2.6 coordena o compartilhamento de resultados intermediários e a transformação consistente de ideias em entregas finalizadas
- Expande a relação entre humanos e IA para além de perguntas e respostas ou simples atribuição de tarefas, rumo a uma parceria real de colaboração
- Apresenta a visão de um futuro em que as fronteiras entre “meu agente”, “seu agente” e “nossa equipe” desaparecem naturalmente dentro de um sistema colaborativo
Tabela de benchmarks
- Principais números na área Agentic
- HLE-Full w/ tools 54.0, GPT-5.4 52.1, Claude Opus 4.6 53.0, Gemini 3.1 Pro 51.4, Kimi K2.5 50.2
- BrowseComp 83.2, BrowseComp(agent swarm) 86.3, Kimi K2.5 com 74.9 e 78.4, respectivamente
- DeepSearchQA f1-score 92.5, accuracy 83.0
- WideSearch item-f1 80.8
- Toolathlon 50.0, Kimi K2.5 27.8
- MCPMark 55.9
- Claw Eval pass^3 62.3, pass@3 80.9
- APEX-Agents 27.9
- OSWorld-Verified 73.1
- Principais números na área Coding
- Terminal-Bench 2.0 (Terminus-2) 66.7
- SWE-Bench Pro 58.6
- SWE-Bench Multilingual 76.7
- SWE-Bench Verified 80.2
- SciCode 52.2
- OJBench (python) 60.6
- LiveCodeBench (v6) 89.6
- Principais números na área Reasoning & Knowledge
- HLE-Full 34.7
- AIME 2026 96.4
- HMMT 2026 (Feb) 92.7
- IMO-AnswerBench 86.0
- GPQA-Diamond 90.5
- Principais números na área Vision
- MMMU-Pro 79.4, MMMU-Pro w/ python 80.1
- CharXiv (RQ) 80.4, CharXiv (RQ) w/ python 86.7
- MathVision 87.4, MathVision w/ python 93.2
- BabyVision 39.8, BabyVision w/ python 68.5
- V* w/ python 96.9
- Para reproduzir oficialmente os resultados de benchmark do Kimi-K2.6, recomenda-se usar a API oficial
- A orientação inclui consultar o Kimi Vendor Verifier (KVV) ao escolher provedores terceirizados
Notas
-
Detalhes gerais dos testes
- Kimi K2.6 e Kimi K2.5 foram reportados com thinking mode enabled, Claude Opus 4.6 com max effort, GPT-5.4 com xhigh reasoning effort e Gemini 3.1 Pro com high thinking level
- Salvo indicação em contrário, os experimentos com Kimi K2.6 foram executados com temperature 1.0, top-p 1.0 e comprimento de contexto de 262,144 tokens
- Benchmarks sem pontuação pública foram reavaliados nas mesmas condições do Kimi K2.6 e marcados com asterisco (*)
- Resultados sem asterisco citam relatórios oficiais
-
Benchmarks de raciocínio
- As pontuações de IMO-AnswerBench de GPT-5.4 e Claude 4.6 foram obtidas no blog da z.ai
- Humanity's Last Exam (HLE) e outras tarefas de raciocínio foram avaliadas com comprimento máximo de geração de 98,304 tokens
- O valor padrão reportado é o conjunto completo do HLE
- No subconjunto apenas de texto, o Kimi K2.6 registrou 36.4% accuracy sem ferramentas e 55.5% accuracy com ferramentas
-
Tarefas agentic e com reforço por ferramentas
- Em HLE with tools, BrowseComp, DeepSearchQA e WideSearch foram equipadas as ferramentas search, code-interpreter e web-browsing
- HLE-Full with tools usa comprimento máximo de geração de 262,144 tokens e limite por etapa de 49,152 tokens
- Quando a janela de contexto ultrapassa o limite, é usada uma estratégia simples de gerenciamento de contexto que mantém apenas a rodada mais recente de mensagens relacionadas a ferramentas
- A pontuação do BrowseComp foi obtida com gerenciamento de contexto na mesma estratégia discard-all usada em Kimi K2.5 e DeepSeek-V3.2
- No DeepSearchQA, não foi aplicado gerenciamento de contexto no teste do Kimi K2.6, e tarefas que excederam o comprimento de contexto suportado foram contadas diretamente como falhas
- As pontuações de DeepSearchQA de Claude Opus 4.6, GPT-5.4 e Gemini 3.1 Pro citam o Claude Opus 4.7 System Card
- O WideSearch reporta resultados com a configuração de gerenciamento de contexto hide tool result
- O prompt de sistema de teste é o mesmo do Kimi K2.5 technical report
- O Claw Eval foi executado com version 1.1 e max-tokens-per-step 16384
- No APEX-Agents, foram avaliadas 452 tarefas entre 480 tarefas públicas
- Assim como na Artificial Analysis, foram excluídos Investment Banking Worlds 244 e 246
- O motivo da exclusão são dependências de runtime externas
-
Tarefas de codificação
- A pontuação do Terminal-Bench 2.0 foi obtida usando o framework de agente padrão Terminus-2 e o JSON parser fornecido, com preserve thinking mode
- As avaliações da família SWE-Bench (incluindo Verified, Multilingual e Pro) usam um framework interno de avaliação modificado com base no SWE-agent
- A configuração de ferramentas desse framework é o conjunto mínimo de bash tool, createfile tool, insert tool, view tool, strreplace tool e submit tool
- Todas as pontuações reportadas para tarefas de codificação são médias de 10 execuções independentes
-
Benchmarks de visão
- Aplicados max-tokens 98,304 e média de 3 execuções (avg@3)
- A configuração com ferramenta Python usa max-tokens-per-step 65,536 e max-steps 50 para raciocínio em múltiplas etapas
- O MMMU-Pro segue o protocolo oficial, mantém a ordem de entrada e coloca as imagens primeiro
3 comentários
Comentários no Hacker News
Testei via OpenRouter, e me impressionou que este modelo não só desenhou o pelicano em SVG, como também exportou tudo embrulhado em HTML com controle de velocidade da animação. O histórico da conversa e o HTML estão neste gist, e um exemplo em execução pode ser visto neste link
Pelos benchmarks iniciais, o Kimi K2.6 melhorou bastante em relação ao Kimi K2 Thinking. O modelo anterior teve desempenho fraco nos nossos benchmarks, e a quantização também usou a melhor configuração possível. Agora, o Kimi K2.6 está entre os melhores modelos open weight em raciocínio de programação em one-shot, ligeiramente acima do GLM 5.1, e competitivo com modelos SOTA de cerca de 3 meses atrás, parecendo estar no mesmo nível do Gemini 3.1 Pro Preview. Os testes agentivos ainda estão em andamento, e modelos open weight costumam ser fracos em fluxos de trabalho com agentes de contexto longo, mas o GLM 5.1 se sustentou bem, então estou curioso com o resultado do Kimi. Tanto a versão antiga quanto a nova, porém, são lentas, então pode haver limitações de usabilidade em coding agent. O Kimi K2 antigo era muito otimizado para benchmark e parecia mais interessado em aumentar variação e temperatura do que em resolver problemas difíceis; este modelo parece bem mais forte como generalista. No geral, o lado open weight está realmente muito bom, com cara de que quase toda semana sai um novo modelo de nível frontier. Os benchmarks detalhados podem ser vistos no gertlabs
Há uma ironia curiosa no fato de a China talvez estar impulsionando a tecnologia mais importante do mundo de forma open source, enquanto os EUA vão na direção oposta
Sempre me surpreendeu que o Kimi receba menos atenção do que eu esperaria. Ele sempre chamou atenção por criatividade e qualidade, e por bastante tempo foi meu modelo favorito. Claro, não sou autoridade no assunto
Queria saber se alguém aqui já usou o Kimi em trabalho real. Testei uma vez, e mesmo com benchmarks chamativos, a impressão prática foi só mediana. Em contrapartida, o Qwen 3.6 foi bem bom e, embora não chegue ao Opus, achei que consegue competir tranquilamente com o Sonnet
Se a sensação passada pelos benchmarks bater com a experiência real, isso pode acabar sendo um momento estilo DeepSeek, em que a IA chinesa passa a andar quase ombro a ombro com os modelos dos principais laboratórios dos EUA
Pelos meus testes e pela comparação no aibenchy, o Kimi K2.6 foi só um pouco melhor que o Kimi K2.5. Especialmente em puzzles, problemas específicos de domínio e tarefas de precisão com pegadinhas, vi muita falha em seguir instruções e respostas erradas. Pode ser excelente como modelo de coding, mas a sensação geral de inteligência ainda parece um pouco abaixo do SOTA de ponta
Às vezes fico pensando se, no futuro, assim como computadores antigos ocupavam uma sala inteira e hoje cabem no bolso, um dia a quantidade de computação equivalente a um datacenter poderia caber em um único dispositivo tipo smartphone. Como a velocidade do avanço tecnológico parece aumentar a cada ano, dá a sensação de que essa mudança também poderia chegar mais rápido
Passei a manhã testando no app, e a sensação foi de resultados parecidos com os do Sonnet 4.6. É uma impressão totalmente baseada em vibe, sem validação formal, mas é bom ver concorrência de verdade surgindo entre modelos frontier
Fiquei curioso se existe algum plano de assinatura fixa para coding neste modelo, ou seja, com limite por chamadas de API em vez de limite por tokens. Recentemente minha assinatura do GLM no z.ai foi cancelada porque a cobrança falhou, e o preço também subiu demais nos últimos meses
Pessoalmente, eu estava usando muito bem o kimi2.5 de forma ilimitada por US$ 30 por mês com o firepass da Fireworks.ai, então estou muito animado com a melhora de desempenho desta versão 2.6, que em breve também deve ser aplicada ao firepass.
Depois de testar rapidamente via API, senti que houve um avanço muito grande em relação à 2.5
Nossa, bloquearam novos cadastros.