- LLM aberto especializado em programação que aprende as mudanças do repositório e o processo de desenvolvimento, e não código estático, por meio de aprendizado em múltiplas etapas de fluxo de código (code-flow)
- Reforça o raciocínio de longo prazo e o desempenho em tarefas com agentes por meio de um pipeline evolutivo de treinamento que vai de pré-treinamento a mid-training e post-training
- Em contextos de 32K e 128K, injeta dados de raciocínio e trajetórias de agentes para obter capacidade de resolver problemas complexos com múltiplos arquivos e em nível de repositório
- Propõe um design prático com a arquitetura LoopCoder, que introduz estrutura repetitiva para melhorar a eficiência de implantação em relação ao tamanho do modelo
- Alcança, com pesos abertos, desempenho competitivo com modelos comerciais em SWE-Bench, LiveCodeBench, Terminal-Bench e outros
Visão geral
- IQuest-Coder-V1 é uma família de grandes modelos de linguagem voltados para código, composta por 7B, 14B, 40B e 40B-Loop
- Adota o paradigma de code-flow, que usa como alvo de aprendizado commits e o processo de evolução do repositório, e não snapshots estáticos de código
- O desempenho foi avaliado em engenharia de software com agentes, programação competitiva e uso geral de ferramentas
Pipeline de aprendizado Code-Flow
- Na fase de pré-treinamento, realiza treinamento misto com dados gerais e grandes volumes de código, seguido de annealing de código de alta qualidade
- Na fase de mid-training, faz expansão de contexto de 32K → 128K e aprende com QA de raciocínio, trajetórias de agentes e dados de código em nível de repositório
- Na fase de post-training, divide-se em um caminho Thinking (RL focado em raciocínio) e um caminho Instruct (otimização para assistência geral)
Principais resultados da pesquisa
- Experimentos confirmam que dados do fluxo de commits do repositório oferecem sinais de planejamento de tarefas superiores aos de snapshots estáticos de código
- A estrutura que injeta dados de raciocínio e agentes no mid-training após o annealing de código de alta qualidade fornece estabilidade diante de mudanças de distribuição
- No caminho Thinking com RL centrado em raciocínio, surge com clareza a capacidade de recuperar-se de erros próprios durante tarefas longas
Arquitetura LoopCoder
- Introduz uma estrutura de transformer em loop que executa duas vezes o mesmo bloco de parâmetros
- Combina atenção global e atenção local com gating para alcançar ao mesmo tempo refinamento de contexto de longo alcance e preservação da causalidade
- Busca responder às restrições de ambientes de implantação ao melhorar a eficiência computacional em relação ao tamanho do modelo
Composição dos dados e estratégia de pré-treinamento
- Em treinamento misto com código multilíngue, formaliza o efeito de sinergia entre linguagens com uma lei de escala baseada em fórmulas
- Constrói dados em triplas (R_old, Patch, R_new) usando commits da faixa de 40% a 80% do ciclo de vida do repositório
- Reforça a capacidade de completar código com a técnica Fill-In-the-Middle em nível de arquivo e de repositório
Resultados de avaliação
- Registra 76.2 no SWE-Bench Verified e desempenho de ponta em vários benchmarks, como LiveCodeBench v6, Terminal-Bench e Mind2Web
- Realiza avaliação abrangente em geração de código, raciocínio, edição, eficiência, Text-to-SQL e tarefas com agentes
- Em alguns indicadores, apresenta resultados próximos ou competitivos em relação a modelos fechados como Claude Sonnet 4.5 e GPT-5.1
Avaliação de segurança
- Em benchmarks de segurança como BeaverTails, HarmBench e TrustLLM, o modelo Thinking registra alta precisão de recusa e desempenho equilibrado
- Os resultados indicam que o RL centrado em raciocínio também tem efeito positivo do ponto de vista de segurança
Conclusão
- Demonstra que o aprendizado centrado no fluxo de evolução do código e nas trajetórias de agentes é eficaz para formar inteligência autônoma de código
- Com a estrutura LoopCoder, propõe uma direção prática de design para LLMs de código que considera o trade-off entre desempenho e eficiência
- O objetivo é impulsionar a pesquisa aberta em inteligência de código e o desenvolvimento de sistemas reais com agentes ao divulgar todas as etapas de treinamento e os checkpoints
1 comentários
Comentários do Hacker News
Um link melhor é iquestlab.github.io
Mas, infelizmente, parece que o agente trapaceou durante a avaliação
A pontuação caiu de 81,4% para 76,2%, mas ainda ficou acima do Opus 4.5 (74,4%)
Resumindo, eles não limparam a pasta
.git/, então o modelo consultou correções de commits futuros por meio de reward hackingQuero dar crédito às pessoas que ajudaram a resolver esse problema
A discussão relacionada também pode ser vista neste tuíte e thread no Reddit
Pelo fato de a IQuestLab ter divulgado os dados do SWE-Bench Verified, isso parece mais um erro de iniciante em benchmark do que manipulação intencional
Basta usar o código mais recente e rodar a avaliação com a imagem Docker atualizada
Tuíte relacionado
Pela minha experiência, o GLM-4.7 (versão opencode) é o mais próximo entre os modelos open source
Às vezes aparecem expressões que parecem misturar dados do Claude, então acho que pode ter havido algum uso de dados do Claude
É uma expressão que o Claude costuma usar para escapar quando chega ao limite
Um modelo de 40B parâmetros vencer Sonnet 4.5 e GPT 5.1? Fico pensando se isso é realmente possível
Ainda assim, o Sonnet 4.5 já é um modelo antigo e houve muitas inovações recentes
É interessante ver como os modelos abertos estão alcançando rapidamente os modelos grandes
Alguém por acaso já rodou esse modelo diretamente ou testou via API hospedada?
Isso é uma alegação falsa, então fico me perguntando por que ainda está na página principal