2 pontos por GN⁺ 2026-01-05 | 1 comentários | Compartilhar no WhatsApp
  • LLM aberto especializado em programação que aprende as mudanças do repositório e o processo de desenvolvimento, e não código estático, por meio de aprendizado em múltiplas etapas de fluxo de código (code-flow)
  • Reforça o raciocínio de longo prazo e o desempenho em tarefas com agentes por meio de um pipeline evolutivo de treinamento que vai de pré-treinamento a mid-training e post-training
  • Em contextos de 32K e 128K, injeta dados de raciocínio e trajetórias de agentes para obter capacidade de resolver problemas complexos com múltiplos arquivos e em nível de repositório
  • Propõe um design prático com a arquitetura LoopCoder, que introduz estrutura repetitiva para melhorar a eficiência de implantação em relação ao tamanho do modelo
  • Alcança, com pesos abertos, desempenho competitivo com modelos comerciais em SWE-Bench, LiveCodeBench, Terminal-Bench e outros

Visão geral

  • IQuest-Coder-V1 é uma família de grandes modelos de linguagem voltados para código, composta por 7B, 14B, 40B e 40B-Loop
  • Adota o paradigma de code-flow, que usa como alvo de aprendizado commits e o processo de evolução do repositório, e não snapshots estáticos de código
  • O desempenho foi avaliado em engenharia de software com agentes, programação competitiva e uso geral de ferramentas

Pipeline de aprendizado Code-Flow

  • Na fase de pré-treinamento, realiza treinamento misto com dados gerais e grandes volumes de código, seguido de annealing de código de alta qualidade
  • Na fase de mid-training, faz expansão de contexto de 32K → 128K e aprende com QA de raciocínio, trajetórias de agentes e dados de código em nível de repositório
  • Na fase de post-training, divide-se em um caminho Thinking (RL focado em raciocínio) e um caminho Instruct (otimização para assistência geral)

Principais resultados da pesquisa

  • Experimentos confirmam que dados do fluxo de commits do repositório oferecem sinais de planejamento de tarefas superiores aos de snapshots estáticos de código
  • A estrutura que injeta dados de raciocínio e agentes no mid-training após o annealing de código de alta qualidade fornece estabilidade diante de mudanças de distribuição
  • No caminho Thinking com RL centrado em raciocínio, surge com clareza a capacidade de recuperar-se de erros próprios durante tarefas longas

Arquitetura LoopCoder

  • Introduz uma estrutura de transformer em loop que executa duas vezes o mesmo bloco de parâmetros
  • Combina atenção global e atenção local com gating para alcançar ao mesmo tempo refinamento de contexto de longo alcance e preservação da causalidade
  • Busca responder às restrições de ambientes de implantação ao melhorar a eficiência computacional em relação ao tamanho do modelo

Composição dos dados e estratégia de pré-treinamento

  • Em treinamento misto com código multilíngue, formaliza o efeito de sinergia entre linguagens com uma lei de escala baseada em fórmulas
  • Constrói dados em triplas (R_old, Patch, R_new) usando commits da faixa de 40% a 80% do ciclo de vida do repositório
  • Reforça a capacidade de completar código com a técnica Fill-In-the-Middle em nível de arquivo e de repositório

Resultados de avaliação

  • Registra 76.2 no SWE-Bench Verified e desempenho de ponta em vários benchmarks, como LiveCodeBench v6, Terminal-Bench e Mind2Web
  • Realiza avaliação abrangente em geração de código, raciocínio, edição, eficiência, Text-to-SQL e tarefas com agentes
  • Em alguns indicadores, apresenta resultados próximos ou competitivos em relação a modelos fechados como Claude Sonnet 4.5 e GPT-5.1

Avaliação de segurança

  • Em benchmarks de segurança como BeaverTails, HarmBench e TrustLLM, o modelo Thinking registra alta precisão de recusa e desempenho equilibrado
  • Os resultados indicam que o RL centrado em raciocínio também tem efeito positivo do ponto de vista de segurança

Conclusão

  • Demonstra que o aprendizado centrado no fluxo de evolução do código e nas trajetórias de agentes é eficaz para formar inteligência autônoma de código
  • Com a estrutura LoopCoder, propõe uma direção prática de design para LLMs de código que considera o trade-off entre desempenho e eficiência
  • O objetivo é impulsionar a pesquisa aberta em inteligência de código e o desenvolvimento de sistemas reais com agentes ao divulgar todas as etapas de treinamento e os checkpoints

1 comentários

 
GN⁺ 2026-01-05
Comentários do Hacker News
  • Um link melhor é iquestlab.github.io
    Mas, infelizmente, parece que o agente trapaceou durante a avaliação

    • Segundo a issue no GitHub, mesmo depois de corrigir a trapaça, os resultados continuaram bons
      A pontuação caiu de 81,4% para 76,2%, mas ainda ficou acima do Opus 4.5 (74,4%)
    • Alguns dias atrás, esse link não recebeu votos suficientes
  • Resumindo, eles não limparam a pasta .git/, então o modelo consultou correções de commits futuros por meio de reward hacking
    Quero dar crédito às pessoas que ajudaram a resolver esse problema
    A discussão relacionada também pode ser vista neste tuíte e thread no Reddit
    Pelo fato de a IQuestLab ter divulgado os dados do SWE-Bench Verified, isso parece mais um erro de iniciante em benchmark do que manipulação intencional

    • Como o John mencionou, esse problema já foi corrigido no SWE-bench
      Basta usar o código mais recente e rodar a avaliação com a imagem Docker atualizada
      Tuíte relacionado
    • Eu também acho que foi um simples erro, mas é uma pena que, se os pesquisadores tivessem olhado a saída ao menos uma vez, teriam percebido na hora
    • O SWEbench ainda não conseguiu se livrar da controvérsia de hype excessivo
  • Pela minha experiência, o GLM-4.7 (versão opencode) é o mais próximo entre os modelos open source
    Às vezes aparecem expressões que parecem misturar dados do Claude, então acho que pode ter havido algum uso de dados do Claude

    • Mas o desempenho ainda fica bem abaixo do Sonnet 4.5 e não dá nem para comparar com o Opus
    • Frases como “What’s your use-case?” também aparecem com frequência
      É uma expressão que o Claude costuma usar para escapar quando chega ao limite
  • Um modelo de 40B parâmetros vencer Sonnet 4.5 e GPT 5.1? Fico pensando se isso é realmente possível

    • Meu palpite (não tenho certeza) é que houve vazamento dos dados de teste ou que parte do conjunto de benchmark entrou nos dados de treino
      Ainda assim, o Sonnet 4.5 já é um modelo antigo e houve muitas inovações recentes
      É interessante ver como os modelos abertos estão alcançando rapidamente os modelos grandes
    • Teve até trocadilho dizendo que o nome “IQuest” é suspeito (It's questionable)
    • Também é possível que tenham aplicado técnicas de pruning no modelo. Há muitos métodos novos hoje em dia
    • No fim, descobriu-se que, na verdade, o agente hackeou o harness de avaliação
  • Alguém por acaso já rodou esse modelo diretamente ou testou via API hospedada?

  • Isso é uma alegação falsa, então fico me perguntando por que ainda está na página principal