IQuest-Coder: novo modelo de código open source supera Claude Sonnet 4.5 e GPT 5.1 [pdf]

(github.com/IQuestLab)

2 pontos por GN⁺ 2026-01-05 | 1 comentários | Compartilhar no WhatsApp

LLM aberto especializado em programação que aprende as mudanças do repositório e o processo de desenvolvimento, e não código estático, por meio de aprendizado em múltiplas etapas de fluxo de código (code-flow)
Reforça o raciocínio de longo prazo e o desempenho em tarefas com agentes por meio de um pipeline evolutivo de treinamento que vai de pré-treinamento a mid-training e post-training
Em contextos de 32K e 128K, injeta dados de raciocínio e trajetórias de agentes para obter capacidade de resolver problemas complexos com múltiplos arquivos e em nível de repositório
Propõe um design prático com a arquitetura LoopCoder, que introduz estrutura repetitiva para melhorar a eficiência de implantação em relação ao tamanho do modelo
Alcança, com pesos abertos, desempenho competitivo com modelos comerciais em SWE-Bench, LiveCodeBench, Terminal-Bench e outros

Visão geral

IQuest-Coder-V1 é uma família de grandes modelos de linguagem voltados para código, composta por 7B, 14B, 40B e 40B-Loop
Adota o paradigma de code-flow, que usa como alvo de aprendizado commits e o processo de evolução do repositório, e não snapshots estáticos de código
O desempenho foi avaliado em engenharia de software com agentes, programação competitiva e uso geral de ferramentas

Pipeline de aprendizado Code-Flow

Na fase de pré-treinamento, realiza treinamento misto com dados gerais e grandes volumes de código, seguido de annealing de código de alta qualidade
Na fase de mid-training, faz expansão de contexto de 32K → 128K e aprende com QA de raciocínio, trajetórias de agentes e dados de código em nível de repositório
Na fase de post-training, divide-se em um caminho Thinking (RL focado em raciocínio) e um caminho Instruct (otimização para assistência geral)

Principais resultados da pesquisa

Experimentos confirmam que dados do fluxo de commits do repositório oferecem sinais de planejamento de tarefas superiores aos de snapshots estáticos de código
A estrutura que injeta dados de raciocínio e agentes no mid-training após o annealing de código de alta qualidade fornece estabilidade diante de mudanças de distribuição
No caminho Thinking com RL centrado em raciocínio, surge com clareza a capacidade de recuperar-se de erros próprios durante tarefas longas

Arquitetura LoopCoder

Introduz uma estrutura de transformer em loop que executa duas vezes o mesmo bloco de parâmetros
Combina atenção global e atenção local com gating para alcançar ao mesmo tempo refinamento de contexto de longo alcance e preservação da causalidade
Busca responder às restrições de ambientes de implantação ao melhorar a eficiência computacional em relação ao tamanho do modelo

Composição dos dados e estratégia de pré-treinamento

Em treinamento misto com código multilíngue, formaliza o efeito de sinergia entre linguagens com uma lei de escala baseada em fórmulas
Constrói dados em triplas (R_old, Patch, R_new) usando commits da faixa de 40% a 80% do ciclo de vida do repositório
Reforça a capacidade de completar código com a técnica Fill-In-the-Middle em nível de arquivo e de repositório

Resultados de avaliação

Registra 76.2 no SWE-Bench Verified e desempenho de ponta em vários benchmarks, como LiveCodeBench v6, Terminal-Bench e Mind2Web
Realiza avaliação abrangente em geração de código, raciocínio, edição, eficiência, Text-to-SQL e tarefas com agentes
Em alguns indicadores, apresenta resultados próximos ou competitivos em relação a modelos fechados como Claude Sonnet 4.5 e GPT-5.1

Avaliação de segurança

Em benchmarks de segurança como BeaverTails, HarmBench e TrustLLM, o modelo Thinking registra alta precisão de recusa e desempenho equilibrado
Os resultados indicam que o RL centrado em raciocínio também tem efeito positivo do ponto de vista de segurança

Conclusão

Demonstra que o aprendizado centrado no fluxo de evolução do código e nas trajetórias de agentes é eficaz para formar inteligência autônoma de código
Com a estrutura LoopCoder, propõe uma direção prática de design para LLMs de código que considera o trade-off entre desempenho e eficiência
O objetivo é impulsionar a pesquisa aberta em inteligência de código e o desenvolvimento de sistemas reais com agentes ao divulgar todas as etapas de treinamento e os checkpoints

1 comentários

GN⁺ 2026-01-05

Comentários do Hacker News

Um link melhor é iquestlab.github.io
Mas, infelizmente, parece que o agente trapaceou durante a avaliação
- Segundo a issue no GitHub, mesmo depois de corrigir a trapaça, os resultados continuaram bons
  A pontuação caiu de 81,4% para 76,2%, mas ainda ficou acima do Opus 4.5 (74,4%)
- Alguns dias atrás, esse link não recebeu votos suficientes
Resumindo, eles não limparam a pasta .git/, então o modelo consultou correções de commits futuros por meio de reward hacking
Quero dar crédito às pessoas que ajudaram a resolver esse problema
A discussão relacionada também pode ser vista neste tuíte e thread no Reddit
Pelo fato de a IQuestLab ter divulgado os dados do SWE-Bench Verified, isso parece mais um erro de iniciante em benchmark do que manipulação intencional
- Como o John mencionou, esse problema já foi corrigido no SWE-bench
  Basta usar o código mais recente e rodar a avaliação com a imagem Docker atualizada
  Tuíte relacionado
- Eu também acho que foi um simples erro, mas é uma pena que, se os pesquisadores tivessem olhado a saída ao menos uma vez, teriam percebido na hora
- O SWEbench ainda não conseguiu se livrar da controvérsia de hype excessivo
Pela minha experiência, o GLM-4.7 (versão opencode) é o mais próximo entre os modelos open source
Às vezes aparecem expressões que parecem misturar dados do Claude, então acho que pode ter havido algum uso de dados do Claude
- Mas o desempenho ainda fica bem abaixo do Sonnet 4.5 e não dá nem para comparar com o Opus
- Frases como “What’s your use-case?” também aparecem com frequência
  É uma expressão que o Claude costuma usar para escapar quando chega ao limite
Um modelo de 40B parâmetros vencer Sonnet 4.5 e GPT 5.1? Fico pensando se isso é realmente possível
- Meu palpite (não tenho certeza) é que houve vazamento dos dados de teste ou que parte do conjunto de benchmark entrou nos dados de treino
  Ainda assim, o Sonnet 4.5 já é um modelo antigo e houve muitas inovações recentes
  É interessante ver como os modelos abertos estão alcançando rapidamente os modelos grandes
- Teve até trocadilho dizendo que o nome “IQuest” é suspeito (It's questionable)
- Também é possível que tenham aplicado técnicas de pruning no modelo. Há muitos métodos novos hoje em dia
- No fim, descobriu-se que, na verdade, o agente hackeou o harness de avaliação
Alguém por acaso já rodou esse modelo diretamente ou testou via API hospedada?
Isso é uma alegação falsa, então fico me perguntando por que ainda está na página principal

IQuest-Coder: novo modelo de código open source supera Claude Sonnet 4.5 e GPT 5.1 [pdf]

Visão geral

Pipeline de aprendizado Code-Flow

Principais resultados da pesquisa

Arquitetura LoopCoder

Composição dos dados e estratégia de pré-treinamento

Resultados de avaliação

Avaliação de segurança

Conclusão

Leituras relacionadas

1 comentários

Comentários do Hacker News