4 pontos por GN⁺ 1 시간 전 | 1 comentários | Compartilhar no WhatsApp
  • O modelo de pesos abertos Kimi K2.6, da Moonshot AI, venceu o AI Coding Contest Day 12 no Word Gem Puzzle, com 22 match points e campanha de 7-1-0
  • O MiMo V2-Pro, da Xiaomi, ficou em 2º com 20 pontos, o ChatGPT GPT-5.5 em 3º com 16, o GLM 5.1 em 4º com 15 e o Claude Opus 4.7 em 5º com 12; os modelos da Anthropic, OpenAI, Google e xAI ficaram todos abaixo dos dois primeiros
  • O Word Gem Puzzle é um quebra-cabeça de letras com peças deslizantes, de 10×10 a 30×30; palavras com menos de 7 letras recebem penalidade, e palavras com 7 ou mais valem comprimento - 6 pontos; cada par de modelos joga 5 rodadas por tamanho de grade com limite de 10 segundos
  • O Kimi K2.6 somou 77 pontos com uma estratégia gulosa de deslizamento que repetidamente escolhia movimentos que abriam palavras de valor positivo, enquanto o MiMo V2-Pro terminou em 2º com 43 pontos ao simplesmente enviar de uma vez as palavras de 7 letras ou mais já presentes na grade inicial, sem deslizar de fato
  • O resultado não significa que um único quebra-cabeça invalide benchmarks gerais, mas mostra que a disputa ficou mais apertada, já que o modelo baixável Kimi K2.6 marca 54 pontos no Artificial Analysis Intelligence Index, perto dos 60 do GPT-5.5 e 57 do Claude

Estrutura da competição e modelos participantes

  • O GLM 5.1, da Zhipu AI, ficou em 4º, e o DeepSeek V4 em 8º
  • O código gerado pelo Nemotron Super 3, da Nvidia, continha erro de sintaxe e não conseguiu se conectar ao servidor do jogo; na prática, a competição ocorreu com 9 modelos
  • O Kimi K2.6 é um modelo de pesos abertos, disponível publicamente, da startup chinesa Moonshot AI, fundada em 2023; o MiMo V2-Pro por enquanto é exclusivo de API
  • A Xiaomi confirmou que em breve vai liberar os pesos do modelo mais novo V2.5 Pro
  • Este resultado não se resume a “a China venceu o Ocidente”, e sim à vitória de dois modelos específicos: Kimi K2.6 e MiMo V2-Pro

Regras do Word Gem Puzzle

  • O Word Gem Puzzle é um quebra-cabeça de letras com peças deslizantes em uma grade retangular preenchida com peças de letras e um espaço vazio
  • O tamanho da grade pode ser 10×10, 15×15, 20×20, 25×25 ou 30×30, e o bot pode empurrar para o espaço vazio qualquer peça adjacente a ele
  • O bot pode enviar a qualquer momento uma palavra inglesa válida formada em linha reta, na horizontal ou na vertical
  • Palavras diagonais e palavras ao contrário não são aceitas
  • A pontuação foi desenhada para recompensar palavras longas e penalizar palavras curtas
    • Palavras com menos de 7 letras perdem pontos
    • Uma palavra de 5 letras perde 1 ponto, e uma de 3 letras perde 3 pontos
    • Palavras com 7 letras ou mais valem comprimento - 6 pontos; assim, uma palavra de 8 letras vale 2 pontos
  • A mesma palavra só pode ser enviada uma vez, e palavras já enviadas antes por outro bot não rendem pontos
  • Cada par de modelos disputou uma rodada por tamanho de grade, totalizando 5 rodadas; o limite por rodada era de 10 segundos de tempo de relógio
  • As grades eram geradas posicionando palavras reais de dicionário em estilo palavras cruzadas, preenchendo os espaços restantes com letras conforme a frequência das peças do Scrabble e, por fim, embaralhando o espaço vazio
  • Tabuleiros maiores eram embaralhados com mais intensidade; por isso, no 10×10 muitas palavras-base ainda permaneciam, mas no 30×30 quase nenhuma sobrevivia

Comportamento dos modelos e fatores de sucesso ou fracasso

  • Kimi K2.6

    • O Kimi K2.6 venceu deslizando peças de forma ativa e registrou a maior pontuação total do torneio, com 77 pontos
    • A estratégia era gulosa: cada movimento possível recebia uma pontuação com base nas palavras de valor positivo que ele abria, então o modelo executava o melhor movimento e repetia o processo
    • Quando não havia movimento que abrisse palavras positivas, ele escolhia a primeira direção legal em ordem alfabética
    • Esse método às vezes criava ineficiências do tipo 2-cycle, em que o espaço vazio ficava indo e voltando sem progresso nas bordas
    • Nas grades pequenas, onde muitas palavras-base ainda restavam, essa ineficiência gerava prejuízo; já no 30×30, quase todas as palavras tinham sido quebradas e precisavam ser reconstruídas, e o grande número de deslizamentos acabou se convertendo em pontuação
  • MiMo V2-Pro

    • O código de deslizamento do MiMo existia no repositório, mas como a condição “maior valor > 0” nunca era acionada, na prática ele não deslizava nenhuma vez
    • Ele varria a grade inicial em busca de palavras com 7 letras ou mais e depois enviava todas as submissões em um único pacote TCP
    • Era uma estratégia frágil, totalmente dependente de as palavras-base permanecerem intactas após o embaralhamento
    • Nas grades onde essas palavras ainda existiam, pontuava rápido; onde não existiam, não fazia nenhum ponto
    • A pontuação total final foi de 43 pontos, garantindo o 2º lugar geral
  • Claude Opus 4.7

    • O Claude também não deslizava
    • Pelos logs de movimento, no tabuleiro 25×25 ele ainda se mantinha porque a densidade do embaralhamento era suportável, mas desabava no 30×30, quando o movimento real das peças se tornava necessário
    • Em um quebra-cabeça de peças deslizantes, não deslizar virou uma limitação evidente
  • GPT-5.5

    • O GPT-5.5 usou uma abordagem mais conservadora, com cerca de 120 deslizamentos por rodada e um limite superior para evitar loops infinitos
    • Teve seus números mais fortes nas grades 15×15 e 30×30
  • Grok Expert 4.2 e GLM 5.1

    • O Grok não deslizava, mas ainda assim teve pontuação relativamente boa em tabuleiros grandes
    • O GLM foi o modelo que mais deslizou em todo o torneio, superando 800 mil deslizamentos no total
    • O GLM travava com força sempre que os movimentos positivos desapareciam
  • DeepSeek V4

    • O DeepSeek enviava dados em formato incorreto em todas as rodadas
    • Não produziu saída útil, mas pelo menos não jogou e piorou ainda mais a pontuação
  • Muse Spark

    • O Muse enviava todas as palavras que conseguia encontrar, sem considerar o comprimento
    • A regra de pontuação foi desenhada para impedir a estratégia de sair enviando indiscriminadamente palavras curtas como “the”, “and” e “it”; por isso, todos os modelos competitivos filtravam seus dicionários para palavras de 7 letras ou mais
    • O Muse encontrava e enviava todas as centenas de palavras curtas válidas visíveis a qualquer momento na grade 30×30
    • A pontuação total foi de −15.309 pontos; perdeu os 8 confrontos e não venceu nenhuma rodada
    • Se existisse uma versão do Muse que apenas se conectasse ao servidor e não fizesse nada, ela teria terminado com 0 ponto, ou seja, 15.309 pontos acima do Muse real
    • A distância entre o Muse e o 8º colocado foi maior do que a distância entre o 8º e o 1º

A diferença criada pela grade 30×30

  • A grade 30×30 foi a que separou com mais clareza os modelos participantes
  • Nos tabuleiros pequenos, a diferença entre scanners estáticos e deslizadores ativos não era tão grande, mas no tamanho máximo os modelos que apenas procuravam palavras já existentes deixavam de encontrar o que enviar
  • O loop guloso do Kimi tinha falhas, mas continuava produzindo saídas mesmo quando os scanners estáticos perdiam todas as palavras disponíveis para envio
  • MiMo e Kimi usaram estratégias quase opostas, mas a diferença final de pontuação ficou em apenas 2 pontos
  • A distância entre 1º e 2º lugar refletiu não só diferença de capacidade, mas também certa variabilidade do seed

Riscos revelados em tarefas estruturadas

  • A saída em formato incorreto do DeepSeek sinaliza problemas na forma como alguns modelos lidam com especificações de protocolo desconhecidas sob pressão de tempo
  • O Muse encontrava e enviava palavras válidas, mas não conseguia aplicar o significado de “válido” levando em conta as regras de pontuação
  • O fracasso do Muse apareceu como um caso de leitura parcial da tarefa e execução até o fim dessa interpretação parcial
  • Ao colocar modelos para operar em tarefas estruturadas com penalidades, uma execução que não incorpora todas as regras pode causar perdas grandes

Limites e significado da interpretação do resultado

  • Esse sistema de pontuação recompensa envio agressivo de palavras, e modelos com ajuste de segurança mais forte podem ser mais conservadores nesse tipo de comportamento indiscriminado
  • Nesses casos, o resultado pode refletir menos uma diferença pura de capacidade e mais um desalinhamento entre o desenho da tarefa e o comportamento alinhado do modelo
  • Um único desafio não invalida benchmarks gerais
  • Este quebra-cabeça testa tomada de decisão em tempo real e a capacidade de escrever código operacional que se conecte a um servidor TCP e jogue corretamente uma partida nova
  • Não é uma tarefa para avaliar raciocínio de contexto longo nem geração de código orientada por especificação de forma ampla
  • O Kimi K2.6 marca 54 pontos no Artificial Analysis Intelligence Index, contra 60 do GPT-5.5 e 57 do Claude
  • Esses números não indicam empate completo, mas mostram proximidade, e o fato de o Kimi K2.6 ser um modelo que qualquer pessoa pode baixar muda a dinâmica competitiva
  • Quando passa a ser possível rodar localmente, com liberdade, um modelo que está a poucos pontos da fronteira, a competição deixa de ser a mesma de um ano atrás
  • Este desafio é mais um ponto de dados mostrando que a diferença encolheu o suficiente para esse tipo de resultado acontecer

1 comentários

 
GN⁺ 1 시간 전
Comentários do Hacker News
  • Parece que vamos continuar vendo posts assim pelo próximo ano. Porque não existe uma forma objetiva de comparar modelos. Tirando números de baixo nível como velocidade de geração de tokens, média de tokens de raciocínio, número de parâmetros e número de especialistas ativos, cada modelo serve para coisas diferentes, tem usuários diferentes e nem é determinístico
    Então vão continuar surgindo benchmarks e declarações do tipo “este modelo venceu aquele modelo”, mas não existe um melhor modelo. Só existem modelos que se encaixam nos critérios de cada um e, no fim, há uma boa chance de virarmos um mundo tipo Windows vs MacOS vs Linux, com cada um ficando no seu próprio campo

    • O ponto principal não é o método de comparação entre modelos, e sim que Kimi K2.6 e DeepSeek v4 Pro estão quase no mesmo nível do Opus, e isso por si só já é algo bem grande
      Eles são open source e custam muito menos por token do que os modelos americanos. Estou usando agora o plano de nuvem de $20 do Ollama, e nele dá para realmente trabalhar em side projects que no plano Claude Pro de $20 batiam no limite depois de um ou dois prompts. Escolhi o Ollama só porque o CLI é prático, e como há vários fornecedores oferecendo esses modelos, eu também não fico preso a termos ruins ou regras de uso. Vejo isso como um sinal bem ruim para a economia americana
    • Existe, sim, uma forma objetiva de comparar modelos. É preciso usar amostragem repetida e análise estatística para julgar se o resultado vai se manter no futuro ou se foi mero acaso
      Quando cada modelo é ajustado para extrair o máximo desempenho esperado em cada tarefa, os rankings de benchmarks diferentes coincidem em grau bastante alto: https://arxiv.org/abs/2507.05195
      Mas o autor deste post não fez esse procedimento. Ele só rodou cada modelo uma vez em 13 problemas até agora e destacou o resultado do 12º problema. Como ele nem chegou a considerar p-valor, é difícil até chamar isso de p-hacking. A qualidade de grandes modelos de linguagem varia muito entre execuções, então rodar cada modelo uma única vez é parecido com lançar duas moedas uma vez, ver uma dar cara e outra coroa, e então dizer qual das moedas é mais enviesada
    • Concordo em parte, mas o trabalho para tornar as métricas comparáveis está em andamento. Por exemplo: https://ghzhang233.github.io/blog/2026/03/05/train-before-te...
      Ainda não foi amplamente adotado, e do ponto de vista de cada interessado talvez seja vantajoso que continue assim por um tempo. Na prática, é parecido com p-hacking
    • Meus casos de uso de grandes modelos de linguagem e meus ambientes de execução agentic são bem limitados, então quando sai um modelo ou ferramenta nova eu testo só um ou dois dos meus casos de uso, faço um julgamento subjetivo e ignoro a maior parte dos benchmarks
      Blogs e textos são um negócio por si só, ou geram tráfego para negócios ao redor de tecnologia, e boa parte dos posts de avaliação existe para chamar atenção. Isso não é necessariamente ruim, mas gera muito ruído
    • No fim, acho que vamos chegar a algo parecido com contratar pessoas. Dá para olhar o currículo, ou seja, os benchmarks, mas não dá para ter certeza antes de trabalhar com a pessoa por 6 meses
      A indústria praticamente não consegue determinar se um engenheiro de software é objetivamente melhor que outro em quase dimensão nenhuma. Então não sei por que acham que dá para atribuir ranking objetivo a modelos
  • Fico feliz de ver a migração para testes com correção objetiva
    Nós fazemos isso em escala em https://gertlabs.com/rankings, e embora o autor pareça ter rodado uma amostra única, o bom desempenho do Kimi K2.6 não é surpreendente. Pelos nossos testes, especialmente em coding, o Kimi fica dentro da margem de incerteza estatística do MiMo V2.5 Pro, que é o melhor modelo de pesos abertos, e em uso de ferramentas ele vai muito melhor que o DeepSeek V4 Pro. O GPT 5.5 está confortavelmente à frente, mas o Kimi está no nível do Opus 4.6 ou acima. O problema do Kimi 2.6, porém, é que ele está entre os modelos mais lentos que testamos

    • Pode até ser corrigido objetivamente, mas isso não mostra a capacidade de programar de alguém. Esse teste mede mais qual modelo conseguiu, quase por acaso, descobrir a melhor estratégia contra outros bots
      Para representar coding, seria preciso testar mais de 100 desses puzzles, cobrindo todo o espectro de puzzles, para ver quem encontra melhor as estratégias usando dicionário de inglês
    • Em fluxos de trabalho agentic, Qwen Flash e os modelos DeepSeek Flash parecem bem bons
      Isso bate com um comentário que apareceu aqui ontem dizendo que os modelos Flash são melhores em tool calling. Uma combinação de GPT 5.5 para planejar e modelos Flash para implementar pode ser um caminho com boa relação custo-benefício
    • Pela minha experiência, benchmarks têm pouco significado
      O desempenho depende não só da língua e da tarefa, mas também do prompt usado e do resultado esperado. Em testes internos, foi realmente difícil decidir se GPT 5.5 ou Opus 4.7 era melhor. O estilo é diferente e no fim fica quase uma questão de gosto. Às vezes eu dava a vitória para um modelo, depois repensava e mudava de ideia. No fim, prefiro levemente o Opus 4.7
    • Os testes e os resultados são open source?
    • Fico curioso sobre por que não conseguimos fornecer uma medida de tamanho de contexto para humanos. Parece que já deveria haver ciência suficiente para criar uma aproximação boa o bastante
  • Segundo uma pesquisa que li há alguns dias, no ritmo atual os modelos open source devem ultrapassar os modelos de nuvem em alguns anos
    Quando olho para ChatGPT e Claude de alguns anos atrás, até modelos Qwen bem pequenos já são quase equivalentes ao coding que aqueles modelos baseados em nuvem faziam. Considerando também as leis de escala, ir de 9B para 18B dá algo como 40% de aumento, mas de 18B para 35B é uns 20%, então parece que os modelos baseados em nuvem pelo menos vão sofrer mudança de preço. A Adobe também já foi $600 por mês, mas virou $20 quando a escala de distribuição aumentou

    • Isso não faz sentido, e cheira a extrapolar a tendência muito além de condições válidas
      A verdade simples é que modelos de nuvem sempre podem ser estritamente superiores aos modelos abertos. Os provedores de modelos de nuvem também podem rodar os mesmos modelos abertos. Além disso, continuam tendo economias de escala e eficiência por operar grandes datacenters cheios de hardware especializado. No mínimo, conseguem oferecer modelos abertos por um preço por token mais baixo do que a conta de luz de qualquer outra pessoa. Em cima disso, ainda têm equipes pesquisando o modelo e os sistemas ao redor, e recursos para colocar os melhores engenheiros mantendo ambientes de execução sempre à frente das ferramentas da moda no GitHub
    • Pode ser, mas o que me preocupa é o lado do hardware
      Mesmo que existam modelos bons o suficiente, e se os provedores de modelos de nuvem forem melhores em obter hardware para inferência?
    • Não entendi a que produto se refere com “a Adobe era $600 por mês e virou $20 conforme a distribuição escalou”. Nunca ouvi falar de um produto da Adobe tão caro assim
    • $600 por mês? Você quer dizer uma licença perpétua de compra única por $600? Nunca ouvi falar de um plano da Adobe tão caro
    • Se tiver o link do estudo que você mencionou, compartilhe
  • Kimi é realmente muito bom
    Usei Sonnet, DeepSeek, ChatGPT, MiniMax, Qwen etc. em um projeto de compilador/VM, e o plano Claude Pro é praticamente inutilizável para trabalho sério de coding. Então acabo usando no modo de chat do navegador para impedir que leia o projeto inteiro sem necessidade, e no Kimi uso junto com o pi no plano OpenCode Go. Em projetos C+Python, o Kimi superou o Sonnet de forma consistente, e eu nunca me preocupei se ele faria algo além do que pedi. O GLM quebrou feio uma ou duas vezes, mas o Kimi não fez isso

    • Fiquei curioso sobre por que você diz que “o plano Claude Pro é praticamente inutilizável para trabalho sério de coding”. Isso parece o completo oposto da avaliação popular de quem usa Claude Pro principalmente para coding
  • O resultado foi medido em uma tarefa única, apenas pelo desempenho da solução
    Kimi K2.6 certamente é um modelo de tamanho de fronteira, então não é tão surpreendente vê-lo lado a lado com modelos fechados de fronteira. Ser aberto é bom, mas para mim, que tenho só uma GPU de consumidor, isso não significa tanto assim

    • O valor do open source não está em eu poder rodá-lo localmente, e sim em alguém poder rodá-lo
      Mesmo que eu não possa comprar o hardware necessário para rodar um modelo open source grande, alguém poderá, e poderá lucrar mesmo cobrando metade do preço de um modelo fechado. A única razão de isso não estar visível agora é que os atuais líderes em oferta de tokens estão subsidiando o custo de inferência. No momento em que começarem a piorar a qualidade e pressionar por monetização, um mercado alternativo passa a ser possível. Sem modelos open source, não existe alternativa real. Mesmo que queiram cobrar só 80% do custo para desenvolvedores, a simples existência de um modelo open source não muito atrás já funciona como força disciplinadora. Eles não têm fosso competitivo
    • Claro que significa muito. É por isso que se tornam possíveis planos muito mais baratos do que os planos de coding da Anthropic e da OpenAI
      Para uso pessoal, estou usando planos de coding com GLM 5.1, Kimi K2.6, MiniMax M2.7 e Xiaomi MiMo V2.5 Pro, e a relação custo-benefício é excelente
    • Isso é muito importante
      A piora de qualidade no começo pode não ser tão visível, mas já estou vendo modelos de fronteira de que eu gostava ficarem bem enfraquecidos e começarem a fazer coisas idiotas que antes não faziam. À medida que dependemos cada vez mais deles, precisamos de modelos de pesos abertos que possam funcionar como plataforma estável
    • O futuro é esse. Modelos de pesos abertos rodando em H200 oferecem muito mais oportunidades para criar produtos e infraestrutura real
      Para uma RTX pequena em casa, sempre dá para destilar depois. Mas modelos ajustados para hardware de consumidor dificilmente terão adoção ampla ou conseguirão manter competitividade com laboratórios de fronteira. Esta é uma forma capaz de competir, e vai exigir e também estimular uma nova geração de infraestrutura de nuvem aberta para executar inferência. Primeiro virão produtos do tipo “implantar com um botão”, “ajustar com um botão”; depois podem surgir produtos muito mais avançados que só são possíveis com pesos abertos não trancados atrás de APIs. Agora só faltam modelos equivalentes em pesos abertos a Nano Banana Pro / GPT Image 2 e Seedance 2.0. A batalha e o foco deveriam estar nos pesos abertos para datacenter
  • Fiquei surpreso com o ranking, mas depois de ler o conteúdo do teste fez sentido. Não parece ter muita relação com coding
    O ranking atual do teste completo parece bem mais razoável. Tirando o quanto o Gemini vai bem: https://aicc.rayonnant.ai

    • Pelos detalhes do ranking, Kimi K2.6 só participou dos 5 desafios mais recentes. Antes disso, o Claude dominava, e se contar só os 5 mais recentes o Kimi fica em 1º
    • Ranking por medalha de ouro só faz sentido quando todos os modelos participam de todos os testes
      DNP significa que não participou. Sob essa ótica, o Kimi conseguiu mais medalhas e melhores medalhas do que o Claude
    • É irônico que um site que lida com tantos modelos não seja responsivo no mobile
    • O link que você forneceu na prática confirma a vantagem do Kimi
  • É anedótico, mas depois de passar meses usando só Claude Code, fiquei positivamente surpreso com a capacidade de Pi + Kimi K2.6. Via OpenRouter ele é muito mais rápido e bem mais barato

  • Infelizmente o Kimi não chega nem perto de GPT ou Opus. Eu realmente queria que chegasse, mas não chega
    Estou rodando uma avaliação em que o modelo precisa gerar código que crie modelos 3D, e está claro que falta entendimento espacial e que ele produz muito mais erros de código antes de acertar. Em alguns casos específicos ele pode ser melhor, e acho que esse post do blog é um exemplo disso

    • Um pouco fora do tópico, mas nas últimas semanas usei DeepSeek V4 Pro e, no geral, ele está no nível do Opus. Só que há uma exceção quando entra Blender
      Nem é uma questão visual. O DeepSeek não é multimodal, mas por algum motivo o Opus entende muito melhor a API do Blender. Parece que sempre vão existir nichos pequenos em que os modelos fechados de fronteira são um pouco melhores
    • Sendo justo, nem todo mundo precisa de modelos 3D
  • Isso parece menos um caso de o Kimi programar melhor que o Claude e mais um caso de o Kimi ter encontrado a estratégia correta para um jogo específico
    Ainda assim é interessante. O verdadeiro ponto talvez seja que os modelos de pesos abertos já chegaram perto o bastante para que essa diferença seja significativa

  • Não entendo tanto da área de IA, mas a ideia de treinar um único modelo para fazer tudo para todo mundo me parece realmente muito tola
    Isso exige recursos enormes e cria escassez severa e distorções de mercado em tudo que as empresas de IA usam, como RAM, SSD, datacenters etc. Na vida real, quando você contrata um encanador, não espera também paisagismo, conserto de carro e costura. Por exemplo, poder baixar um app especializado em coding de shell, Python e C, ou até três apps assim se comunicando entre si, parece muito melhor em termos de uso de recursos. Talvez até rode em uma máquina comum com 16 GB de RAM. Não é como se precisássemos necessariamente de um modelo gigante que saiba programar em Fortran, COBOL e Lisp. A especialização funcionou muito bem para os humanos, e eu gostaria que explorassem mais modelos de IA pequenos e focados, em vez do caminho atual de “um modelo domina tudo e só roda em datacenters de escala nacional”

    • Em termos gerais, isso está certo, mas há casos em que não
      Desde o GPT-3, muita gente diz que nenhum modelo pode ser tão geral assim, então ajuste fino seria o melhor caminho, mas a cada geração isso parece menos verdadeiro