5 pontos por GN⁺ 9 일 전 | 3 comentários | Compartilhar no WhatsApp
  • Modelo que elevou o desempenho em codificação de longo percurso e tarefas no estilo agente, reforçando a capacidade de generalização em várias linguagens e em frontend, devops e otimização de desempenho de forma ampla
  • Trata tarefas complexas de engenharia com codificação de execução contínua e, após milhares de chamadas de ferramenta e mais de 12 horas de execução contínua, registrou grande aumento de throughput na otimização de inferência em Zig e na reformulação completa do exchange-core
  • Converte prompts simples em uma interface frontend completa e também usa ferramentas de geração de imagem e vídeo, oferecendo suporte a workflows full-stack simples com autenticação e operações de banco de dados
  • Expandiu a estrutura Agent Swarm para 300 subagentes e 4.000 etapas de coordenação, executando em paralelo tarefas de busca, pesquisa, redação de documentos e criação de arquivos, e transformando formato e estilo de PDFs, slides, planilhas e documentos do Word em skills reutilizáveis
  • Ampliou o escopo para agentes proativos e Claw Groups, realizando operação autônoma de longa duração, colaboração entre múltiplos agentes e redistribuição de tarefas, com melhoria confirmada em codificação, chamadas de ferramenta e confiabilidade em execuções longas em benchmarks e testes beta corporativos

Codificação de longo percurso

  • Confirmada melhora de desempenho em tarefas de codificação de longo percurso, reforçando a capacidade de generalização em várias linguagens como Rust, Go e Python, e em diversas tarefas como frontend, devops e otimização de desempenho
    • No benchmark interno de codificação Kimi Code Bench, registrou grande melhoria em relação ao Kimi K2.5 em tarefas complexas end-to-end
  • Executa codificação de execução contínua em tarefas complexas de engenharia
    • Download e implantação bem-sucedidos do modelo Qwen3.5-0.8B em ambiente local Mac
    • Implementou e otimizou inferência do modelo em Zig, uma linguagem relativamente especializada, comprovando desempenho de generalização fora de distribuição
    • Após mais de 4.000 chamadas de ferramenta, mais de 12 horas de execução contínua e 14 iterações, elevou o throughput de cerca de 15 tokens/sec para cerca de 193 tokens/sec
    • A velocidade final ficou cerca de 20% mais rápida que o LM Studio
  • Realizou uma reformulação completa do mecanismo open source de matching financeiro de 8 anos, exchange-core
    • Durante 13 horas de execução, repetiu 12 estratégias de otimização e ajustou com precisão mais de 4.000 linhas de código com mais de 1.000 chamadas de ferramenta
    • Identificou gargalos ocultos por meio de análise de flame graph de CPU e alocação de memória
    • Reconfigurou a topologia de threads do núcleo de 4ME+2RE para 2ME+1RE
    • Alcançou aumento de 185% no throughput mediano (0.43→1.24 MT/s) e aumento de 133% no throughput de desempenho (1.23→2.86 MT/s) em um engine já próximo do limite de desempenho
  • As avaliações corporativas do beta test também mostraram várias análises positivas sobre confiabilidade de codificação de longo prazo e qualidade de chamadas de ferramenta
    • A Baseten mencionou desempenho em tarefas de codificação em nível semelhante ao de modelos proprietários líderes, forte qualidade de chamadas de ferramenta baseada na compreensão de frameworks de terceiros e adequação para tarefas de engenharia complexas e de longa duração
    • A Blackbox citou um novo padrão para modelos open source em workflows de codificação longos e orientados a agentes, tratamento de tarefas complexas em múltiplas etapas, alta qualidade de código, estabilidade em sessões longas e capacidade de detectar bugs não óbvios
    • A CodeBuddy registrou aumento de 12% na precisão de geração de código, melhora de 18% na estabilidade em contexto longo e taxa de sucesso de chamadas de ferramenta de 96,60% em relação ao K2.5
    • A Factory reportou melhora de 15% em avaliação comparativa lado a lado com seu benchmark interno
    • A Fireworks citou confiabilidade em longos trechos e capacidade de seguir instruções como os maiores pontos de melhoria
    • A Hermes Agent mencionou maior integração entre chamadas de ferramenta e loops de agente, melhoria em codificação e ampliação do alcance criativo
    • A Kilo mencionou desempenho em nível SOTA com baixo custo e força em tarefas de contexto longo em toda a codebase
    • A Ollama mencionou adequação para codificação e ferramentas de agente, estabilidade em sessões longas e multinível, e integração imediata com integrações existentes
    • A OpenCode mencionou estabilidade na decomposição de tarefas e nas chamadas de ferramenta, redução do overhead iterativo e confiabilidade da experiência end-to-end
    • A Qoder mencionou aumento na frequência de chamadas de ferramenta e de modelo, maior proatividade durante a execução de tarefas e redução de interrupções e latência para o usuário
    • A Vercel mencionou melhora de mais de 50% no benchmark de Next.js, desempenho entre os melhores da plataforma e adequação para codificação orientada a agentes e geração de frontend com boa relação custo-benefício

Design centrado em codificação

  • Com base em forte capacidade de codificação, é possível transformar prompts simples em uma interface frontend completa
    • Gera layouts estruturados com hero section estética, elementos interativos e animações ricas, incluindo efeitos acionados por rolagem
  • Com base na capacidade de usar ferramentas de geração de imagem e vídeo, oferece suporte à criação de assets visualmente consistentes
    • Contribui para criar hero sections mais chamativas e de maior qualidade
  • Vai além do frontend estático e se estende a workflows full-stack simples
    • Inclui autenticação, interação do usuário e operações de banco de dados
    • Suporta casos de uso leves, como histórico de transações ou gerenciamento de sessão
  • Construção do benchmark interno Kimi Design Bench
    • Composto por quatro categorias: Visual Input Tasks, Landing Page Construction, Full-Stack Application Development e General Creative Programming
    • Registrou resultados promissores e bom desempenho em várias categorias em comparação com o Google AI Studio
  • Fornecidos exemplos produzidos pelo K2.6 Agent
    • Resultados gerados com um único prompt e harness/ferramentas pré-configurados
    • No aspecto estético, incluem belo design frontend com interações ricas
    • No aspecto funcional, incluem banco de dados embutido e autenticação
    • No uso de ferramentas, incluem websites refinados gerados com ferramentas de imagem e vídeo

Agent Swarm aprimorado

  • Adota uma estrutura focada não apenas em escala vertical, mas em escala horizontal
    • O Agent Swarm decompõe dinamicamente tarefas em subtarefas heterogêneas, que são executadas em paralelo por agentes especializados em domínio gerados por ele próprio
  • Com base no research preview do K2.5 Agent Swarm, o Kimi K2.6 Agent Swarm apresenta um salto qualitativo na experiência
    • Combina busca ampla com pesquisa aprofundada
    • Combina análise documental em larga escala com redação longa
    • Executa em paralelo a geração de conteúdo em vários formatos
    • Em uma única execução autônoma, entrega resultados end-to-end abrangendo documentos, websites, slides e planilhas
  • Ampliação da escala de expansão horizontal da arquitetura
    • 300 subagentes executam 4.000 etapas de coordenação simultaneamente
    • Grande expansão em relação aos 100 subagentes e 1.500 etapas do K2.5
    • A paralelização em larga escala reduz a latência end-to-end, melhora a qualidade da saída e amplia os limites operacionais do Agent Swarm
  • Arquivos de alta qualidade, como PDF, planilhas, slides e documentos do Word, podem ser convertidos em Skills
    • Captura e preserva as características de estrutura e estilo dos documentos
    • Permite reproduzir a mesma qualidade e o mesmo formato em trabalhos posteriores
  • Vários exemplos de tarefas apresentados
    • Projetou e executou 5 estratégias quantitativas para 100 ativos globais de semicondutores, extraiu um PPT no estilo McKinsey como skill reutilizável e forneceu uma planilha detalhada de modelagem e material completo de apresentação executiva
    • Converteu um artigo de astrofísica de alta qualidade com ricos dados visuais em skill acadêmica reutilizável, extraiu o fluxo de raciocínio e o método de visualização, e gerou um artigo de pesquisa de 40 páginas e 7.000 palavras, um dataset estruturado com mais de 20.000 itens e 14 gráficos em nível astronômico
    • Com base em um currículo enviado, gerou 100 subagentes para combinar 100 vagas relevantes na Califórnia, fornecendo um dataset estruturado de oportunidades e 100 currículos personalizados
    • Identificou 30 lojas de varejo em Los Angeles sem site oficial no Google Maps e gerou, para cada uma, uma landing page focada em conversão

Agentes proativos

  • Registrou forte desempenho em agentes autônomos e proativos como OpenClaw e Hermes
    • Suporta o tipo de operação contínua 24 horas por dia, 7 dias por semana em várias aplicações
  • Suporta workflows distintos da simples interação baseada em chat
    • É necessário realizar gerenciamento de agenda, execução de código e orquestração de tarefas entre plataformas como agente persistente em segundo plano
  • A equipe de infraestrutura de RL operou um agente baseado no K2.6 de forma autônoma por 5 dias
    • Responsável por monitoramento, resposta a incidentes e operação do sistema
    • Comprovou manutenção de contexto persistente, tratamento de tarefas multithread e execução de todo o ciclo, do alerta à resolução
    • Mencionou a existência de logs de tarefas com remoção de informações sensíveis
  • Medidas de melhoria de confiabilidade em ambiente real
    • Interpretação de API mais precisa
    • Desempenho mais estável em execuções prolongadas
    • Maior percepção de segurança em tarefas de pesquisa de longa duração
  • Quantificou a melhora de desempenho com a suíte de avaliação interna Claw Bench
    • Inclui cinco áreas: Coding Tasks, IM Ecosystem Integration, Information Research & Analysis, Scheduled Task Management e Memory Utilization
    • Em todos os indicadores, houve grande melhora na taxa de conclusão de tarefas e na precisão das chamadas de ferramenta em relação ao Kimi K2.5
    • Melhorias particularmente fortes em workflows que exigem operação autônoma contínua sem supervisão humana

Bring Your Own Agents

  • Com base em forte capacidade de orquestração, expande agentes proativos para Claw Groups
    • Fornece um research preview como uma nova forma de implementação da arquitetura Agent Swarm
  • Acolhe um ecossistema aberto e heterogêneo
    • Vários agentes e humanos atuam juntos como colaboradores reais
    • O usuário pode integrar agentes a partir de qualquer dispositivo e executados em qualquer modelo
    • Cada agente possui seu próprio conjunto de ferramentas, skills e contexto de memória persistente
    • Agentes em ambientes diversos, como notebook local, dispositivo móvel e instância em nuvem, são integrados naturalmente a um espaço operacional compartilhado
  • No centro, o Kimi K2.6 atua como coordenador adaptativo
    • Distribui tarefas dinamicamente com base no perfil de skills e nas ferramentas disponíveis de cada agente
    • Otimiza o trabalho de acordo com as capacidades adequadas
    • Quando detecta falha ou bloqueio de um agente, redistribui tarefas ou recria subtarefas
    • Gerencia ativamente todo o ciclo de vida dos resultados, do início à verificação e conclusão
  • Inclui casos de uso próprios dos Claw Groups
    • Usa internamente uma equipe de marketing de agentes para refinar na prática workflows humano-agente
    • Agentes especializados como Demo Makers, Benchmark Makers, Social Media Agents e Video Makers trabalham em conjunto
    • Opera produção de conteúdo e campanhas de lançamento end-to-end
    • O K2.6 coordena o compartilhamento de resultados intermediários e a transformação consistente de ideias em entregas finalizadas
  • Expande a relação entre humanos e IA para além de perguntas e respostas ou simples atribuição de tarefas, rumo a uma parceria real de colaboração
    • Apresenta a visão de um futuro em que as fronteiras entre “meu agente”, “seu agente” e “nossa equipe” desaparecem naturalmente dentro de um sistema colaborativo

Tabela de benchmarks

  • Principais números na área Agentic
    • HLE-Full w/ tools 54.0, GPT-5.4 52.1, Claude Opus 4.6 53.0, Gemini 3.1 Pro 51.4, Kimi K2.5 50.2
    • BrowseComp 83.2, BrowseComp(agent swarm) 86.3, Kimi K2.5 com 74.9 e 78.4, respectivamente
    • DeepSearchQA f1-score 92.5, accuracy 83.0
    • WideSearch item-f1 80.8
    • Toolathlon 50.0, Kimi K2.5 27.8
    • MCPMark 55.9
    • Claw Eval pass^3 62.3, pass@3 80.9
    • APEX-Agents 27.9
    • OSWorld-Verified 73.1
  • Principais números na área Coding
    • Terminal-Bench 2.0 (Terminus-2) 66.7
    • SWE-Bench Pro 58.6
    • SWE-Bench Multilingual 76.7
    • SWE-Bench Verified 80.2
    • SciCode 52.2
    • OJBench (python) 60.6
    • LiveCodeBench (v6) 89.6
  • Principais números na área Reasoning & Knowledge
    • HLE-Full 34.7
    • AIME 2026 96.4
    • HMMT 2026 (Feb) 92.7
    • IMO-AnswerBench 86.0
    • GPQA-Diamond 90.5
  • Principais números na área Vision
    • MMMU-Pro 79.4, MMMU-Pro w/ python 80.1
    • CharXiv (RQ) 80.4, CharXiv (RQ) w/ python 86.7
    • MathVision 87.4, MathVision w/ python 93.2
    • BabyVision 39.8, BabyVision w/ python 68.5
    • V* w/ python 96.9
  • Para reproduzir oficialmente os resultados de benchmark do Kimi-K2.6, recomenda-se usar a API oficial
    • A orientação inclui consultar o Kimi Vendor Verifier (KVV) ao escolher provedores terceirizados

Notas

  • Detalhes gerais dos testes

    • Kimi K2.6 e Kimi K2.5 foram reportados com thinking mode enabled, Claude Opus 4.6 com max effort, GPT-5.4 com xhigh reasoning effort e Gemini 3.1 Pro com high thinking level
    • Salvo indicação em contrário, os experimentos com Kimi K2.6 foram executados com temperature 1.0, top-p 1.0 e comprimento de contexto de 262,144 tokens
    • Benchmarks sem pontuação pública foram reavaliados nas mesmas condições do Kimi K2.6 e marcados com asterisco (*)
    • Resultados sem asterisco citam relatórios oficiais
  • Benchmarks de raciocínio

    • As pontuações de IMO-AnswerBench de GPT-5.4 e Claude 4.6 foram obtidas no blog da z.ai
    • Humanity's Last Exam (HLE) e outras tarefas de raciocínio foram avaliadas com comprimento máximo de geração de 98,304 tokens
    • O valor padrão reportado é o conjunto completo do HLE
    • No subconjunto apenas de texto, o Kimi K2.6 registrou 36.4% accuracy sem ferramentas e 55.5% accuracy com ferramentas
  • Tarefas agentic e com reforço por ferramentas

    • Em HLE with tools, BrowseComp, DeepSearchQA e WideSearch foram equipadas as ferramentas search, code-interpreter e web-browsing
    • HLE-Full with tools usa comprimento máximo de geração de 262,144 tokens e limite por etapa de 49,152 tokens
    • Quando a janela de contexto ultrapassa o limite, é usada uma estratégia simples de gerenciamento de contexto que mantém apenas a rodada mais recente de mensagens relacionadas a ferramentas
    • A pontuação do BrowseComp foi obtida com gerenciamento de contexto na mesma estratégia discard-all usada em Kimi K2.5 e DeepSeek-V3.2
    • No DeepSearchQA, não foi aplicado gerenciamento de contexto no teste do Kimi K2.6, e tarefas que excederam o comprimento de contexto suportado foram contadas diretamente como falhas
    • As pontuações de DeepSearchQA de Claude Opus 4.6, GPT-5.4 e Gemini 3.1 Pro citam o Claude Opus 4.7 System Card
    • O WideSearch reporta resultados com a configuração de gerenciamento de contexto hide tool result
    • O prompt de sistema de teste é o mesmo do Kimi K2.5 technical report
    • O Claw Eval foi executado com version 1.1 e max-tokens-per-step 16384
    • No APEX-Agents, foram avaliadas 452 tarefas entre 480 tarefas públicas
      • Assim como na Artificial Analysis, foram excluídos Investment Banking Worlds 244 e 246
      • O motivo da exclusão são dependências de runtime externas
  • Tarefas de codificação

    • A pontuação do Terminal-Bench 2.0 foi obtida usando o framework de agente padrão Terminus-2 e o JSON parser fornecido, com preserve thinking mode
    • As avaliações da família SWE-Bench (incluindo Verified, Multilingual e Pro) usam um framework interno de avaliação modificado com base no SWE-agent
    • A configuração de ferramentas desse framework é o conjunto mínimo de bash tool, createfile tool, insert tool, view tool, strreplace tool e submit tool
    • Todas as pontuações reportadas para tarefas de codificação são médias de 10 execuções independentes
  • Benchmarks de visão

    • Aplicados max-tokens 98,304 e média de 3 execuções (avg@3)
    • A configuração com ferramenta Python usa max-tokens-per-step 65,536 e max-steps 50 para raciocínio em múltiplas etapas
    • O MMMU-Pro segue o protocolo oficial, mantém a ordem de entrada e coloca as imagens primeiro

3 comentários

 
GN⁺ 9 일 전
Comentários no Hacker News
  • Testei via OpenRouter, e me impressionou que este modelo não só desenhou o pelicano em SVG, como também exportou tudo embrulhado em HTML com controle de velocidade da animação. O histórico da conversa e o HTML estão neste gist, e um exemplo em execução pode ser visto neste link

    • Agora fico pensando que esse tipo de pelicano em SVG provavelmente já entrou no dataset de treinamento
    • Isso passou totalmente uma vibe de excesso de zelo, e até o nome Kimi soa meio como aluno exemplar
    • Infelizmente, parece que não dedicaram o mesmo cuidado às pernas e pés do pelicano. A perna esquerda não se mexe, como se estivesse paralisada, e o tornozelo direito gira de um jeito até inquietante
    • Usei na beta e era um modelo bem decente; em alguns momentos eu até esquecia que estava usando algo que não fosse Opus ou GPT. Ainda assim, o Opus continua melhor e, para mim, o lado do GPT parecia mais pesado. Em trabalho de backend havia um pequeno nicho onde ele servia, mas, com habilidade, dava para resolver algo parecido com Opus também, e no geral sobravam mais limitações do que pontos fortes
    • Fico sinceramente curioso: qual é o objetivo de postar isso em quase toda thread de modelo novo? Posso estar velho e rabugento, mas isso já ficou batido faz tempo e parece comentário de Reddit de baixo esforço
  • Pelos benchmarks iniciais, o Kimi K2.6 melhorou bastante em relação ao Kimi K2 Thinking. O modelo anterior teve desempenho fraco nos nossos benchmarks, e a quantização também usou a melhor configuração possível. Agora, o Kimi K2.6 está entre os melhores modelos open weight em raciocínio de programação em one-shot, ligeiramente acima do GLM 5.1, e competitivo com modelos SOTA de cerca de 3 meses atrás, parecendo estar no mesmo nível do Gemini 3.1 Pro Preview. Os testes agentivos ainda estão em andamento, e modelos open weight costumam ser fracos em fluxos de trabalho com agentes de contexto longo, mas o GLM 5.1 se sustentou bem, então estou curioso com o resultado do Kimi. Tanto a versão antiga quanto a nova, porém, são lentas, então pode haver limitações de usabilidade em coding agent. O Kimi K2 antigo era muito otimizado para benchmark e parecia mais interessado em aumentar variação e temperatura do que em resolver problemas difíceis; este modelo parece bem mais forte como generalista. No geral, o lado open weight está realmente muito bom, com cara de que quase toda semana sai um novo modelo de nível frontier. Os benchmarks detalhados podem ser vistos no gertlabs

    • Queria saber como o K2.6 se compara ao Sonnet 4.6 em preço e desempenho
    • Foi bem surpreendente ver uma variação tão grande de desempenho entre idiomas
  • Há uma ironia curiosa no fato de a China talvez estar impulsionando a tecnologia mais importante do mundo de forma open source, enquanto os EUA vão na direção oposta

    • Acho que uma das motivações é conter empresas americanas. OpenAI e Anthropic são os maiores players, e ambas são empresas dos EUA, então quanto mais modelos open weight existirem, menor o domínio industrial dessas duas. Se as empresas chinesas adotassem a estratégia americana de modelos fechados, a maioria provavelmente usaria ChatGPT ou Claude; então, se já é difícil lucrar muito de qualquer forma, faz mais sentido lançar como open weight e reduzir os lucros extraordinários das empresas americanas
    • Grandes avanços tecnológicos acabam sendo acelerados pela abertura. Basta olhar para o iPhone: GPS, internet, assistente de voz, touchscreen, microprocessador, bateria de íons de lítio e várias outras tecnologias centrais vieram de pesquisa governamental ou de pesquisa aberta ao público. Empresas privadas não costumam simplesmente abrir uma descoberta para concorrentes, então, para fazer o campo avançar como um todo, no fim é preciso abrir a tecnologia
    • Com esta atualização, eu diria que o Kimi K2.6 virou o modelo de IA multimodal aberto mais forte. Claro, não sou parte interessada. Juntando benchmarks públicos de IA, comparado ao Opus 4.6 max effort, agentes ficaram 5 a 5, coding ficou Kimi 5 a Opus 1, raciocínio e conhecimento ficaram Kimi 1 a Opus 4, e visão ficou Kimi 9 a Opus 0. Ainda assim, benchmark sempre tem viés porque é a fabricante que escolhe, mas vários dos itens de coding e raciocínio eram relativamente padrão
    • Não dá para ver só por esse lado. O Google também lançou recentemente o Gemma 4, e a Allen AI também vem publicando a linha open Olmo. Ainda assim, é verdade que os modelos abertos chineses parecem bem mais fortes, e especialmente a linha Qwen 3 dá a sensação de estar entregando acima da categoria
    • Surgem várias especulações sobre por que laboratórios chineses estão lançando modelos em open source, mas para mim o motivo é simples e claro: essa é praticamente a única estratégia de comercialização viável para eles. Resumi isso neste texto
  • Sempre me surpreendeu que o Kimi receba menos atenção do que eu esperaria. Ele sempre chamou atenção por criatividade e qualidade, e por bastante tempo foi meu modelo favorito. Claro, não sou autoridade no assunto

    • É bom, mas ainda não me parece estar no nível do Claude. Além disso, a API sofre com problemas de capacidade com frequência. Mesmo assim, a relação custo-benefício é absurda, a ponto de eu ter colocado 40 dólares algumas semanas ou meses atrás e ainda não ter gasto nem metade
    • Também achei curioso que ele seja um dos poucos modelos capazes de desenhar um relógio em SVG. Dá para ver exemplos neste site
    • Melhor ainda por ser muito barato no OpenRouter para esse nível de desempenho. Espero que o 2.6 mantenha essa tradição
    • Usei como opção no Kagi Assistant, e gostei dos resultados num ambiente com muita busca e resumo. Principalmente quando eu pedia prosa natural, e não aquele estilo típico de LLM cheio de listas ou Markdown. Não consigo comparar com total confiança, mas ele parecia reorganizar o texto original com bastante liberdade para melhorar o fluxo da saída, e às vezes essa edição era justamente o que fazia a resposta conectar ideias relacionadas tratadas separadamente ou responder de fato ao pedido
    • Lembro quando saiu o primeiro K2: por um tempo, ele ficou claramente à frente dos outros modelos em escrita criativa
  • Queria saber se alguém aqui já usou o Kimi em trabalho real. Testei uma vez, e mesmo com benchmarks chamativos, a impressão prática foi só mediana. Em contrapartida, o Qwen 3.6 foi bem bom e, embora não chegue ao Opus, achei que consegue competir tranquilamente com o Sonnet

    • Quando eu acabava a cota do Codex, usava o Kimi K2.5 como substituto, e ele ia bem em tarefas pequenas e médias. Mas, em tarefas complexas, depois eu precisava passar dois dias limpando a bagunça no Codex, então espero que o 2.6 tenha melhorado
    • Antes do GLM-5.1, eu alternava entre Opus 4.5 e Kimi 4.5, e o lado do Kimi também entregava resultados bem bons
    • É bem provável que você já esteja usando no dia a dia. Se você usa o modelo composer-2 do Cursor, então está usando algo da família Kimi. Para planejamento ele está entre os melhores, e a execução também funciona bem no composer-2
  • Se a sensação passada pelos benchmarks bater com a experiência real, isso pode acabar sendo um momento estilo DeepSeek, em que a IA chinesa passa a andar quase ombro a ombro com os modelos dos principais laboratórios dos EUA

    • Em comparação com a geração anterior de modelos, até dá para dizer isso, mas em relação aos chamados modelos míticos de nível 10T, ainda não chega nem perto
  • Pelos meus testes e pela comparação no aibenchy, o Kimi K2.6 foi só um pouco melhor que o Kimi K2.5. Especialmente em puzzles, problemas específicos de domínio e tarefas de precisão com pegadinhas, vi muita falha em seguir instruções e respostas erradas. Pode ser excelente como modelo de coding, mas a sensação geral de inteligência ainda parece um pouco abaixo do SOTA de ponta

    • Testei no OpenRouter com max tokens em 8192, mas mesmo no modo non-thinking todas as respostas vinham cortadas. Pode ser problema de deploy, mas pelo seu link também parece que ele gera uma quantidade enorme de tokens de saída
  • Às vezes fico pensando se, no futuro, assim como computadores antigos ocupavam uma sala inteira e hoje cabem no bolso, um dia a quantidade de computação equivalente a um datacenter poderia caber em um único dispositivo tipo smartphone. Como a velocidade do avanço tecnológico parece aumentar a cada ano, dá a sensação de que essa mudança também poderia chegar mais rápido

    • Já existe trabalho inicial nessa direção. Por exemplo, empresas como a Taalas estão fazendo ASICs para LLM, e o HC1 supostamente entrega 17k tokens por segundo com llama 8b. Ainda está mais para um servidor único, com algo em torno de 2,5 kW, do que para um celular, mas por ser um primeiro chip já é algo significativo. Alternativas como computação fotônica também podem reduzir bastante o consumo, mas ainda parecem estar em fase de pesquisa. Como há muito dinheiro entrando em IA e a inferência com GPU consome muita energia, espero avanços relativamente rápidos nessa área
    • Eu não acho que vá ser tão rápido assim. Historicamente, o que houve foi mais uma miniaturização exponencial, e se essa tendência se mantiver, o tempo para reduzir computação do tamanho de uma sala para algo do tamanho de um bolso deveria ser parecido. Além disso, recentemente nem essa tendência exponencial vem sendo alcançada, e crescimento exponencial por si só já é difícil de sustentar por muito tempo. Concordo que o progresso tecnológico vai continuar acelerando e os dispositivos computacionais continuarão diminuindo, mas isso por si só não significa que a próxima etapa de miniaturização virá em menos tempo
  • Passei a manhã testando no app, e a sensação foi de resultados parecidos com os do Sonnet 4.6. É uma impressão totalmente baseada em vibe, sem validação formal, mas é bom ver concorrência de verdade surgindo entre modelos frontier

    • Com o K2.6 e o GLM 5.1, agora parece que dá para ter inteligência de nível Sonnet por preço de Haiku. Isso é realmente ótimo. Tomara que a Anthropic lance logo um novo Haiku; para competir com os modelos mais baratos, ela parece precisar de algo na faixa de um terço a um quinto do preço atual do Haiku. O Gemma-4 está indo bem justamente nessa faixa de preço
  • Fiquei curioso se existe algum plano de assinatura fixa para coding neste modelo, ou seja, com limite por chamadas de API em vez de limite por tokens. Recentemente minha assinatura do GLM no z.ai foi cancelada porque a cobrança falhou, e o preço também subiu demais nos últimos meses

    • O Kimi também tem sua própria assinatura, num formato bem parecido com o de outros serviços, e dá para conferir em Kimi Code
 
ingwannu 9 일 전

Pessoalmente, eu estava usando muito bem o kimi2.5 de forma ilimitada por US$ 30 por mês com o firepass da Fireworks.ai, então estou muito animado com a melhora de desempenho desta versão 2.6, que em breve também deve ser aplicada ao firepass.

Depois de testar rapidamente via API, senti que houve um avanço muito grande em relação à 2.5

 
chlrhdmltkfkd 8 일 전

Nossa, bloquearam novos cadastros.