ML para acompanhar nesta semana

(discuss.pytorch.kr)

13 pontos por ninebow 2026-06-09 | 2 comentários | Compartilhar no WhatsApp

PyTorchKR🔥🇰🇷 🤔💭

Ao observar os 10 artigos selecionados desta semana, fica claro que a convergência está acontecendo rapidamente em torno do gerenciamento de estado de agentes baseados em grandes modelos de linguagem (LLMs), da eficiência de inferência e da segurança e verificabilidade em ambientes reais. Em especial, foi possível identificar linhas de pesquisa interessantes que vão desde mudanças estruturais para maximizar a eficiência dos agentes até o redesenho fundamental da arquitetura Transformer e a obtenção de robustez para se adaptar a ambientes dinâmicos do mundo real.

:one: Inovação nos workflows de agentes: externalização do estado e internalização da lógica de inferência Nos artigos desta semana, destacaram-se duas abordagens opostas, mas complementares, para resolver os custos e gargalos de contexto que surgem quando agentes executam tarefas complexas e longas. Harness-1 e AdaCoM aumentaram a estabilidade de tarefas de longa duração ao aliviar a carga de memória de estado ou de gerenciamento de contexto dos agentes, transferindo-a para o ambiente externo ou para um modelo de gerenciamento separado. Por outro lado, Latent Agents e a pesquisa sobre internalização de workflows agênticos (Subterranean Agents) propõem um pós-treinamento que compila processos complexos de comunicação entre um orquestrador externo ou múltiplos agentes diretamente nos pesos de um único modelo. Com isso, o modelo passa a conseguir debater consigo mesmo ou realizar raciocínio procedural sem depender de prompts ou coordenação externa, apontando para uma direção que mantém desempenho de nível frontier model ao mesmo tempo em que reduz de forma radical o custo de inferência e o uso de tokens.

:two: Redesenho da arquitetura de base: fusão do mecanismo de attention e otimização de parâmetros A pesquisa fundamental para superar a ineficiência computacional inerente dos Transformers e reduzir o uso de memória também é uma forte tendência. O artigo SISA(Forget Attention) propõe uma “fusão em nível de score”, que injeta diretamente o sinal de importância sequencial dos modelos de espaço de estados (SSM) no cálculo dos scores de attention, alcançando ao mesmo tempo capacidade de busca global e julgamento de prioridade sequencial. Além disso, o estudo sobre variantes de QKV (Do Transformers Need Three Projections?) questiona o padrão tradicional, tratado como óbvio, de separar query, key e value, e demonstra empiricamente que um esquema de projeção com compartilhamento entre key e value (Q-K=V) pode reduzir drasticamente o cache KV com perda mínima de desempenho. Essas melhorias estruturais no nível da arquitetura vão além do simples aumento de performance e ampliam bastante a viabilidade prática de implantação em dispositivos de borda com memória limitada ou em ambientes de IA on-device.

:three: Adaptação em tempo real a ambientes dinâmicos e robustez em nível de sistema Chamam atenção os estudos que vão além de simplesmente gerar a resposta correta e buscam lidar ativamente com mudanças e ameaças, além de fazer o próprio sistema evoluir. MOSS expandiu a autoevolução, que antes se limitava à modificação de prompts, para reescrita em nível de código-fonte, permitindo que o sistema de agentes cure por conta própria falhas estruturais. FuzzingBrain V2, por sua vez, usou multiagentes para detectar e corrigir vulnerabilidades reais de software de forma 100% reproduzível. Além disso, AdvGame tratou o alinhamento de segurança de modelos de linguagem como um jogo não cooperativo em tempo real entre atacante e defensor, aumentando a capacidade de defesa dinâmica, enquanto o estudo Plan, Watch, Recover apresentou um modelo de assistente proativo capaz de intervir e orientar em tempo real quando o usuário sai do procedimento previsto. Isso mostra que a IA está se consolidando como um sistema proativo e confiável, capaz de operar fora de laboratórios controlados, mesmo em meio a erros imprevisíveis e ameaças de segurança do mundo real.

Resumo dos principais pontos de cada artigo

Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses: um agente de busca baseado em aprendizado por reforço em que a carga de memória é separada da política e assumida pelo harness. Registrou média de curated recall de 0,730 em 8 benchmarks, com desempenho de transferência particularmente forte.
Forget Attention: Importance-Aware Attention Is All You Need: propõe o SISA, que injeta diretamente o sinal de importância dos modelos de espaço de estados (SSM) nos scores de attention. Pode ser implementado com uma única chamada SDPA e melhora significativamente o desempenho de busca e a recuperação de dependências de longo alcance.
Do Transformers Need Three Projections? Systematic Study of QKV Variants: um estudo que analisa de forma sistemática até que ponto as projeções QKV podem ser compartilhadas. Q-K=V manteve praticamente o mesmo desempenho enquanto reduziu bastante o cache KV, e o efeito de economia de memória foi ainda maior quando combinado com GQA/MQA.
Compiling Agentic Workflows into LLM Weights: aborda uma estratégia de compilar o próprio procedimento de trabalho nos pesos do modelo em vez de depender de orquestração externa. Reduz chamadas repetidas e consumo de contexto longo, enquanto alcança qualidade próxima ao nível frontier.
Learning Agent-Compatible Context Management for Long-Horizon Tasks: propõe o AdaCoM, em que um LLM externo edita dinamicamente o contexto para um agente fixo. Em tarefas de busca web e pesquisa de longo prazo, reduz informações passadas desnecessárias enquanto preserva as restrições da tarefa.
Latent Agents: A Post-Training Procedure for Internalized Multi-Agent Debate: um método de pós-treinamento que destila debates multiagente para dentro de um único LLM. Mostrou desempenho equivalente ou melhor que o explicit debate usando até 93% menos tokens.
MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems: um sistema de agentes que realiza autoevolução no nível do código-fonte, e não do prompt. Reescreve a estrutura do código com base em evidências reais de falha e é implantado de modo verificável, com possibilidade de rollback.
Safety Alignment of LMs via Non-cooperative Games: redefine o alinhamento de segurança como um jogo não cooperativo no qual um LM atacante e um LM defensor se adaptam mutuamente. Por meio de aprendizado por reforço baseado em preferências, empurra simultaneamente a fronteira de Pareto entre segurança e utilidade.
Plan, Watch, Recover: A Benchmark and Architectures for Proactive Procedural Assistance: um sistema de assistência multimodal proativa que aprende quando intervir e como trazer o usuário de volta ao procedimento quando ele se desvia. Avalia o desempenho real de orientação para retorno por meio de EgoProactive e Pro²Bench.
FuzzingBrain V2: A Multi-Agent LLM System for Automated Vulnerability Discovery and Reproduction: um sistema de segurança que automatiza a descoberta e a reprodução de vulnerabilidades com LLMs multiagente. Combina verificação baseada em OSS-Fuzz, localização precisa de vulnerabilidades e fuzzing hierárquico para alcançar alta taxa de detecção e descobrir vulnerabilidades reais.

Harness-1: aprendizado por reforço para agentes de busca com harnesses de externalização de estado / Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses

Introdução ao artigo

Agentes de busca costumam ser treinados como políticas sobre transcrições em crescimento, nas quais o modelo precisa decidir como buscar e, ao mesmo tempo, lembrar do que já viu, quais evidências são úteis, quais restrições ainda estão em aberto e quais afirmações de fato já foram verificadas. Os autores consideram que essa configuração impõe à política uma carga excessiva de gerenciamento de estado, fazendo com que o aprendizado por reforço precise otimizar simultaneamente decisões de busca significativas e a manutenção de registros recuperáveis que o ambiente poderia tratar de forma mais estável.

Para resolver isso, eles propõem o Harness-1, um agente de busca 20B treinado com aprendizado por reforço dentro de um harness de externalização de estado (state-externalizing harness). Esse harness gerencia a memória de trabalho do lado do ambiente, incluindo pool de candidatos, conjunto refinado com tags de importância, links de evidência comprimidos, registros de verificação, observações comprimidas e sem duplicação, e renderização de contexto com consideração de orçamento.

Por outro lado, a política fica responsável pelas decisões semânticas, incluindo o que buscar, quais documentos manter ou descartar, o que verificar e quando encerrar. Em 8 benchmarks de recuperação, abrangendo web, finanças, patentes e perguntas e respostas multi-hop, o Harness-1 alcançou um curated recall médio de 0,730, 11,4 pontos acima do próximo subagente de busca open source mais forte. O ganho foi especialmente marcante em benchmarks de transferência fora do domínio de treinamento, sugerindo que o aprendizado por reforço sobre um estado de busca explícito pode criar comportamentos de recuperação que generalizam melhor.

Resumo (Abstract)

Agentes de busca costumam ser treinados como políticas sobre transcrições em crescimento: ou seja, o modelo precisa decidir o que buscar ao mesmo tempo em que se lembra do que já viu, quais evidências são úteis, quais restrições ainda estão em aberto e quais afirmações de fato foram verificadas.

Argumentamos que essa formulação coloca gerenciamento rotineiro de estado demais dentro da política. Em outras palavras, ela força o aprendizado por reforço (RL) a otimizar, junto com as decisões semânticas de busca, até mesmo o registro recuperável que o ambiente pode manter com mais confiabilidade.

Apresentamos o Harness-1, um agente de busca 20B (subagente de recuperação) treinado com aprendizado por reforço dentro de um harness de busca com estado. Esse harness mantém uma memória de trabalho do lado do ambiente, incluindo um pool de candidatos, um conjunto curado com tags de importância, links compactos de evidência, registros de verificação, observações comprimidas e sem duplicação, e renderização de contexto sensível ao orçamento. A política mantém as decisões semânticas, como o que buscar, quais documentos manter ou descartar, o que verificar e quando parar.

Ao longo de 8 benchmarks de recuperação que abrangem web, finanças, patentes e QA multi-hop, o Harness-1 alcançou um curated recall médio de 0,730, superando o segundo melhor subagente de busca aberto em +11,4 pontos e mantendo desempenho competitivo com buscadores muito maiores baseados em frontier models. Os ganhos foram especialmente fortes em benchmarks de transferência não vistos, sugerindo que o aprendizado por reforço sobre estado de busca explícito pode produzir comportamentos de recuperação que generalizam para além dos domínios de treinamento. Código: https://github.com/pat-jj/harness-1

Search agents are often trained as policies over growing transcripts: the model must decide how to search while also remembering what it has seen, which evidence is useful, which constraints remain open, and which claims have actually been checked. We argue that this formulation puts too much routine state management inside the policy: reinforcement learning is forced to optimize both semantic search decisions and recoverable bookkeeping that the environment can maintain more reliably. We introduce Harness-1, a 20B search agent (retrieval subagent) trained with reinforcement learning inside a stateful search harness. The harness maintains environment-side working memory, including a candidate pool, an importance-tagged curated set, compact evidence links, verification records, compressed and deduplicated observations, and budget-aware context rendering. The policy retains the semantic decisions: what to search, which documents to keep or discard, what to verify, and when to stop. Across eight retrieval benchmarks spanning web, finance, patents, and multi-hop QA, Harness-1 achieves 0.730 average curated recall, outperforming the next strongest open search subagent by +11.4 points and remaining competitive with much larger frontier-model searchers. Its gains are especially strong on held-out transfer benchmarks, suggesting that reinforcement learning over explicit search state can produce retrieval behaviors that generalize beyond the training domains. Our code is available at https://github.com/pat-jj/harness-1.

Link do artigo

https://arxiv.org/abs/2606.02373

Esqueça a attention: tudo o que você precisa é de Importance-Aware Attention / Forget Attention: Importance-Aware Attention Is All You Need

Apresentação do artigo

Na modelagem de linguagem híbrida que combina Transformer e State Space Model (SSM), a questão central é como aproveitar ao mesmo tempo a capacidade de explorar informações globalmente e a capacidade de distinguir o que é importante ao longo da sequência. Os Transformers existentes conseguem olhar para qualquer lugar, mas têm limitações na hora de definir prioridades, enquanto os SSMs conseguem acumular sinais importantes, mas têm dificuldade para voltar e referenciar com precisão informações passadas, o que os torna complementares. No entanto, os métodos híbridos existentes em geral se limitavam a posicionar os dois mecanismos em paralelo no nível de bloco ou de head, de modo que, no momento crucial de calcular os scores de attention, o sinal de importância do SSM não podia ser refletido diretamente. Diante desse problema, os autores propõem o SSM-Informed Softmax Attention (SISA) e desenham uma nova forma de combinação que injeta o sinal sequencial de importância fornecido pelo SSM não na saída da attention, mas nos próprios scores. A ideia central é que, além do termo padrão de produto interno que representa a similaridade de conteúdo, também se adiciona um termo de produto interno do vetor de importância derivado do SSM, expandindo assim a relação entre tokens para refletir não apenas a correspondência de conteúdo, mas também “o que é importante agora”.

O ponto especialmente importante desse método é que, mesmo sem estado recursivo adicional nem custom kernel, ele pode ser implementado com uma única chamada de Scaled Dot-Product Attention (SDPA), bastando compor query e key expandidos. Em outras palavras, embora o SISA utilize matematicamente a informação sequencial do SSM, do ponto de vista de implementação ele foi projetado para se encaixar bem no fluxo operacional padrão do Transformer, mantendo compatibilidade com otimizações da família FlashAttention. Além disso, o canal SSM calcula componentes de decay e rotation a partir da entrada para compor o sinal de importância, e faz esse sinal atuar no nível do score da attention, elevando diretamente o desempenho de retrieval. Os resultados experimentais também mostram com clareza o efeito desse desenho: na escala de 152M e sob a condição de 5B tokens, o SISA registrou 17,3% no LAMBADA-greedy, superando o Transformer padrão e o Mamba-3, e no NIAH (Needle-in-a-Haystack) atingiu 100% já no ponto de 1K steps de treinamento, mostrando uma convergência de busca extremamente rápida.

Além disso, embora o SISA não mostre métricas totalmente dominantes nem mesmo na escala de 369M, ele tem grande relevância prática por manter um desempenho consistentemente forte em tarefas importantes de recuperação, sem perder a executabilidade com SDPA padrão. Com isso, os autores apresentam um terceiro eixo de projeto que vai além dos níveis de bloco e de cabeça, ou seja, a fusão no nível de score (score-level fusion), como uma alternativa válida para modelos de linguagem híbridos. Em última análise, a contribuição deste artigo não está apenas em misturar duas famílias de modelos, mas em trazer o sinal de importância fornecido pelo SSM para o centro da formação dos scores de atenção, integrando recuperação global e priorização sequencial dentro de uma única operação. Essa abordagem pode ser vista como um caso importante que mostra como arquiteturas híbridas podem evoluir de forma mais sofisticada em tarefas de modelagem de linguagem nas quais a recuperação de dependências de longo alcance e o rastreamento de informações essenciais são cruciais.

Resumo(Abstract)

Combinar a capacidade de recuperação global da atenção com o sinal sequencial de importância dos modelos de espaço de estados (SSM) é um desafio em aberto na modelagem de linguagem híbrida. Os transformadores conseguem ver tudo, mas não conseguem priorizar; os SSMs sabem o que é importante, mas não conseguem revisitar. Híbridos existentes, como Jamba (nível de bloco) e Hymba (nível de cabeça), colocam os dois mecanismos em compartimentos separados, de modo que nenhum deles informa o outro durante o próprio cálculo da atenção. Propomos o SISA (SSM-Informed Softmax Attention), que adiciona diretamente um termo de importância derivado de SSM dentro do score de atenção e implementa toda a operação como uma única chamada SDPA sobre vetores de query/key expandidos. Não são necessários estado recorrente nem kernel customizado. Em 152M / 5 bilhões de tokens, o SISA alcançou 17,3% no LAMBADA-greedy (contra 13,9 do Transformer e 15,5 do Mamba-3), registrou 100% no NIAH a partir de 1K steps e foi 7 vezes mais rápido que a convergência de recuperação do Transformer. Em 369M, o Mamba-3 fica à frente no LAMBADA, mas o SISA preserva NIAH perfeito e execução com SDPA padrão. Assim, o SISA propõe um terceiro eixo de projeto para híbridos SSM-attention — fusão no nível de score (score-level fusion) — além dos paradigmas em nível de bloco e em nível de cabeça que têm dominado a área.

Combining attention's global retrieval with the sequential importance signal of state space models (SSMs) is the open challenge of hybrid language modeling. Transformers see everywhere but cannot prioritize; SSMs know what matters but cannot revisit. Existing hybrids -- Jamba (block level) and Hymba (head level) -- place the two in separate compartments, so neither informs the other during the attention computation itself. We propose SISA (SSM-Informed Softmax Attention), which adds an SSM-derived importance term directly inside the attention score and realizes the full operation as a single SDPA call on augmented query/key vectors -- no recurrent state, no custom kernel. At 152M / 5B tokens, SISA reaches LAMBADA-greedy 17.3% (vs. Transformer 13.9 and Mamba-3 15.5) and attains NIAH 100% from step 1K, 7x faster than Transformer's retrieval convergence; at 369M, Mamba-3 leads LAMBADA while SISA preserves perfect NIAH and stock-SDPA execution. SISA thus defines a third design axis for SSM-attention hybrids -- score-level fusion -- beyond the block-level and head-level paradigms that have dominated the field.

Link do artigo

https://arxiv.org/abs/2606.02332

Os transformadores precisam de três projeções? Estudo sistemático de variantes de QKV / Do Transformers Need Three Projections? Systematic Study of QKV Variants

Introdução ao artigo

O componente central que sustenta o desempenho dos transformadores (Transformer) tem sido a atenção QKV (query-key-value), composta por query, key e value, mas ainda não houve uma análise suficientemente sistemática sobre o quanto cada projeção realmente precisa ser independente. Este estudo mira exatamente essa lacuna e analisa com precisão como o compartilhamento de pesos (weight tying) dentro da atenção afeta a expressividade e a eficiência de inferência, com foco em três restrições de compartilhamento de projeção: Q-K=V, Q=K-V e Q=K=V. Em especial, o trabalho observa que as duas últimas variantes tendem a tornar o mapa de atenção simétrico com mais facilidade e, ao examinar também um projeto que introduz codificação posicional bidimensional (two-dimensional positional encoding) para compensar a direcionalidade, amplia a discussão para além da simples redução de parâmetros, tratando-a como uma questão que altera a própria estrutura do espaço de representação. Essa abordagem é significativa porque não se limita a perguntar se o compartilhamento de projeções causa perda de desempenho, mas separa e explica em que condições a qualidade é preservada e em que condições a direcionalidade e a seletividade da atenção são prejudicadas.

Os experimentos foram organizados para abranger domínios distintos — tarefas sintéticas, visão e modelagem de linguagem —, verificando assim que os efeitos do compartilhamento de projeções não se limitam a um domínio específico de dados. Nas tarefas sintéticas, são usados problemas de manipulação como inversão de ordem, ordenação, substituição, troca e cópia para observar o quão bem o modelo aprende relações estruturais. Nos experimentos de visão, o desempenho de generalização é avaliado em ambientes onde a informação de posição espacial é importante, por meio de MNIST, CIFAR, TinyImageNet e detecção de anomalias (anomaly detection). Em modelagem de linguagem, modelos com 300M e 1,2B de parâmetros são treinados com 10 bilhões de tokens para verificar se a mesma tendência se mantém também em cenários de larga escala. Como resultado, o método Q-K=V apresentou desempenho em geral equivalente ao do Transformer QKV padrão e, em alguns casos, até melhor; em modelagem de linguagem, reduziu o cache de key-value (KV) em 50%, enquanto a piora na perplexidade foi de apenas 3,1%.

Mais importante ainda é que esse efeito de redução se combina de forma complementar com grouped query attention (GQA) e multi-query attention (MQA). Quando Q-K=V é usado junto com GQA-4, o cache KV pode ser reduzido em até 87,5%; quando combinado com MQA, a redução chega a 96,9%, oferecendo vantagens concretas para inferência on-device. A partir desses resultados, os autores sugerem que key e value podem, na prática, compartilhar espaços de representação semelhantes, e que, como a atenção opera em uma estrutura de baixo posto (low-rank), a separação completa de QKV não é necessariamente indispensável. Em contrapartida, Q=K-V mostrou-se mais desfavorável em termos de desempenho e estabilidade, porque amarra query e key em excesso e enfraquece a direcionalidade da atenção.

Em resumo, este estudo leva a encarar a estrutura QKV dos transformadores não como um padrão óbvio e imutável, mas como um espaço de projeto passível de reavaliação, oferecendo critérios empíricos sobre quais projeções devem ser compartilhadas e quais papéis devem permanecer separados. Em particular, como é possível reduzir bastante o uso de memória preservando quase todo o desempenho, esses resultados podem ser lidos como uma diretriz importante de projeto para implantação eficiente em ambientes com restrições, como edge devices.

Resumo(Abstract)

Os transformers se tornaram a solução padrão para diversas tarefas de IA, com a formulação de atenção query, key e value (QKV) desempenhando um papel central. No entanto, a contribuição individual dessas três projeções e o impacto de omitir algumas delas ainda não são bem compreendidos. Avaliamos sistematicamente três restrições de compartilhamento de projeção: a) Q-K=V (compartilhamento de key-value), b) Q=K-V (compartilhamento de query-key) e c) Q=K=V (projeção única). As duas últimas variantes produzem mapas de atenção simétricos; para lidar com isso, também exploramos atenção assimétrica por meio de codificações posicionais 2D. Por meio de experimentos abrangendo tarefas sintéticas, visão (MNIST, CIFAR, TinyImageNet, detecção de anomalias) e modelagem de linguagem (modelos de 300M e 1,2B parâmetros em 10B tokens), descobrimos que nossos transformers têm desempenho equivalente ou, às vezes, melhor que o transformer QKV. Em modelagem de linguagem, o compartilhamento de projeção Q-K=V reduz o cache KV em 50% com uma degradação de perplexidade de apenas 3,1%. Crucialmente, o compartilhamento de projeção é complementar ao compartilhamento de cabeças (GQA/MQA): combinar Q-K=V com GQA-4 gera uma redução de 87,5% no cache, enquanto Q-K=V + MQA atinge 96,9%, viabilizando inferência prática on-device. Mostramos que Q-K=V preserva a qualidade porque keys e values podem ocupar espaços de representação semelhantes e a atenção opera em um regime de baixa rank, enquanto Q=K-V quebra a direcionalidade da atenção. Nossos resultados caracterizam sistematicamente o compartilhamento de projeção como um caso pouco explorado de weight tying em atenção, com benefícios diretos e quantificáveis de memória na inferência, particularmente valiosos para deployment na edge. O código está disponível publicamente em https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections.

Transformers se tornaram a solução padrão para várias tarefas de IA, com a formulação de atenção query, key e value (QKV) desempenhando um papel central. No entanto, a contribuição individual dessas três projeções e o impacto de omitir algumas delas ainda são pouco compreendidos. Avaliamos sistematicamente três restrições de compartilhamento de projeção: a) Q-K=V (key-value compartilhado), b) Q=K-V (query-key compartilhado) e c) Q=K=V (projeção única). As duas últimas variantes produzem mapas de atenção simétricos; para lidar com isso, também exploramos atenção assimétrica via codificações posicionais 2D. Por meio de experimentos cobrindo tarefas sintéticas, visão (MNIST, CIFAR, TinyImageNet, anomalias) e modelagem de linguagem (modelos de 300M e 1,2B parâmetros em 10B tokens), descobrimos que nossos transformers têm desempenho comparável ou ocasionalmente melhor que o transformer QKV. Em modelagem de linguagem, o compartilhamento de projeção Q-K=V alcança redução de 50% no cache KV com degradação de perplexidade de apenas 3,1%. Crucialmente, o compartilhamento de projeção é complementar ao compartilhamento de cabeças (GQA/MQA): combinar Q-K=V com GQA-4 produz redução de 87,5% no cache, enquanto Q-K=V + MQA alcança 96,9%, permitindo inferência prática on-device. Mostramos que Q-K=V preserva a qualidade porque keys e values podem ocupar espaços representacionais semelhantes e a atenção opera em um regime de baixa rank, enquanto Q=K-V rompe a direcionalidade da atenção. Nossos resultados caracterizam sistematicamente o compartilhamento de projeção como um caso pouco explorado de weight tying em atenção, com benefícios diretos e quantificáveis de memória de inferência, particularmente valiosos para deployment em edge. O código está disponível publicamente em https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections

Link do artigo

https://arxiv.org/abs/2606.04032

Leitura adicional

https://github.com/Brainchip-Inc/Do-Transformers-Need-3-Projections

Compilar workflows agênticos nos pesos de LLM: qualidade próxima ao nível frontier com custo 100 vezes menor / Compiling Agentic Workflows into LLM Weights: Near-Frontier Quality at Two Orders of Magnitude Less Cost

Apresentação do artigo

A recente disseminação de frameworks de orquestração de agentes mostra que a forma de controlar tarefas complexas por meio de um coordenador externo sobre grandes modelos de linguagem (Large Language Model, LLM) vem sendo aceita quase como um padrão de fato, mas este artigo questiona se essa estrutura é realmente a melhor opção em tarefas procedurais. O método em que um orquestrador externo injeta instruções e decisões de roteamento a cada turno tem a vantagem de facilitar controle e depuração, mas consome continuamente a janela de contexto (context window), exige chamar um modelo frontier a cada conversa e pode expor o próprio procedimento a provedores terceirizados. Diante disso, os autores propõem uma abordagem em que, em vez de colocar o procedimento no prompt, ele é compilado diretamente nos pesos (weights) de um pequeno modelo fine-tuned, criando em tempo de execução um agente que internaliza o procedimento sem necessidade de orquestração separada. Como esse método dispensa a injeção contínua do procedimento a partir do exterior, ele reduz drasticamente o custo, não ocupa contexto longo e oferece a vantagem estrutural de não revelar fluxos de trabalho sensíveis a serviços externos. Os autores chamam esse tipo de agente, em que o procedimento opera oculto dentro do modelo, de subterranean agent, distinguindo-o claramente do design tradicional centrado em orquestração.

A metodologia central não se limita a apresentar um conceito simples; ela busca verificar, em ambientes reais de trabalho, três barreiras percebidas que levam desenvolvedores a hesitar diante dessa abordagem. Primeiro, trata da preocupação com desempenho: se um modelo pequeno pode entregar qualidade em nível frontier. Segundo, examina o problema da internalização de conhecimento: se informações que mudam com frequência, como conhecimento específico de produto, podem ser incorporadas aos pesos. Terceiro, valida se essa abordagem consegue escalar para workflows grandes, com muitas ramificações complexas e hubs. Para isso, os pesquisadores selecionam três domínios de naturezas distintas — reservas de viagem, suporte do Zoom e sinistros de seguros — e comparam a utilidade da abordagem compilada em condições com diferentes exigências de profundidade procedural e conhecimento de domínio. O caso de reservas de viagem testa a estabilidade de transições de estado e da tomada de decisão em etapas por meio de um fluxo procedural padrão composto por 14 nós, enquanto o suporte do Zoom destaca que, mesmo em workflows do mesmo porte, também são necessários conhecimento de políticas e funcionalidades específicas de cada produto. Já o caso de sinistros de seguros, com uma estrutura mais complexa de 55 nós e 6 hubs de decisão, funciona como um teste de estresse realista, exigindo ao mesmo tempo ramificações condicionais e cálculo de políticas.

As implicações dos resultados experimentais são claras. Fica demonstrado que um modelo pequeno com o procedimento incorporado aos pesos pode manter quality near-frontier, ou seja, uma qualidade próxima à dos modelos de fronteira, ao mesmo tempo em que reduz os custos em múltiplos de dois dígitos, o que nos leva a repensar o equilíbrio tradicional entre desempenho e eficiência. Em especial, como se vê no caso de sinistros de seguro, o modelo não se limita a gerar respostas, mas consegue executar de forma consistente um raciocínio procedural que inclui verificação, ramificação, cálculo de reembolso e orientação de pagamento. Esses resultados sugerem que, em tarefas repetíveis e com estrutura relativamente estável, uma abordagem compilada, na qual o próprio procedimento é aprendido, pode ser mais adequada do que uma orquestração que depende de ajustes externos a cada vez. Ao mesmo tempo, permanece o ponto de que mudanças no procedimento podem exigir novo treinamento e que, em comparação com abordagens baseadas em prompt, essa alternativa pode ser menos favorável em correções imediatas e interpretabilidade, mas a contribuição do estudo está em ampliar o leque de opções de design de agentes. Em última análise, este artigo desafia a noção convencional de que workflows de agentes sempre precisam ser montados externamente e demonstra empiricamente que transferir o procedimento para dentro do modelo pode ser uma alternativa plenamente válida também em nível prático.

Resumo (Abstract)

Os frameworks de orquestração de agentes se disseminaram rapidamente e, somando LangGraph, CrewAI, Google ADK, OpenAI Agents SDK, Semantic Kernel, Strands e LlamaIndex, já ultrapassaram 290 mil estrelas no GitHub. Todos seguem o mesmo padrão: um orquestrador externo sobre o LLM, injetando instruções e decisões de roteamento a cada turno. Trabalhos recentes mostraram que, em tarefas procedurais, essa arquitetura é superada por simplesmente fornecer o procedimento diretamente no system prompt de um modelo de fronteira [Dennis et al., 2026a]. No entanto, isso consome a janela de contexto, exige um modelo de fronteira em toda conversa e expõe procedimentos proprietários a provedores terceirizados. Compilar o procedimento nos pesos de um pequeno modelo ajustado finamente — criando um agente subterrâneo (subterranean agent) — deveria resolver todas essas questões, e estudos anteriores (SimpleTOD, FireAct, SynTOD, WorkflowLLM, Agent Lumos) já mostraram que a técnica funciona. Ainda assim, a adoção por desenvolvedores permanece fortemente concentrada na orquestração. Identificamos três barreiras percebidas e tratamos empiricamente de cada uma delas em três domínios: reserva de viagens (14 nós), suporte do Zoom (14 nós, com conhecimento específico do produto) e sinistros de seguro (55 nós, 6 hubs de decisão).

Agent orchestration frameworks have proliferated, collectively exceeding 290,000 GitHub stars across LangGraph, CrewAI, Google ADK, OpenAI Agents SDK, Semantic Kernel, Strands, and LlamaIndex. All follow the same pattern: an external orchestrator above the LLM, injecting instructions and routing decisions every turn. Recent work has shown this architecture is dominated for procedural tasks by simply providing the procedure in a frontier model's system prompt [Dennis et al., 2026a], at the cost of consuming the context window, requiring a frontier model for every conversation, and exposing proprietary procedures to third-party providers. Compiling the procedure into the weights of a small fine-tuned model -- creating a subterranean agent -- should resolve all of these concerns, and prior work (SimpleTOD, FireAct, SynTOD, WorkflowLLM, Agent Lumos) has shown the technique works. Yet developer adoption has overwhelmingly favored orchestration. We identify three perceived barriers and address each empirically across travel booking (14 nodes), Zoom support (14 nodes, product-specific knowledge), and insurance claims (55 nodes, 6 decision hubs).

Link do artigo

https://arxiv.org/abs/2605.22502

Aprendendo gerenciamento de contexto compatível com agentes para tarefas de longo horizonte / Learning Agent-Compatible Context Management for Long-Horizon Tasks

Introdução ao artigo

Quando agentes baseados em grandes modelos de linguagem (LLMs) executam tarefas de longo horizonte, como busca na web ou pesquisa aprofundada, em que as etapas são extensas e os julgamentos intermediários se acumulam, um dos maiores obstáculos é que, à medida que a conversa se alonga, pistas úteis e informações antigas desnecessárias se misturam, comprometendo a inferência. Métodos existentes de gerenciamento de contexto frequentemente aprendem em conjunto a política interna do agente ou dependem de estratégias fixas, como sumarização, mas essas abordagens são difíceis de aplicar a agentes fechados (closed-source) e não refletem adequadamente a realidade de que cada agente pode exigir uma forma diferente de gerenciamento. Para resolver isso, o Adaptive Context Management (AdaCoM) propõe uma abordagem em que o agente fixo (frozen agent) é mantido como está, enquanto outro LLM externo é treinado para editar dinamicamente o contexto. O ponto central aqui não é simplesmente comprimir conversas longas, mas aprender ações flexíveis de edição que, no nível das mensagens, realizam exclusão, reescrita e mesclagem, preservando as restrições e o progresso necessários para a tarefa atual e removendo ruídos antigos. Esse desenho é significativo porque redefine o gerenciamento de contexto não como um pré-processamento estático, mas como um problema de aprendizado de política que melhora diretamente a taxa de sucesso do agente.

O AdaCoM começa com fine-tuning supervisionado (supervised fine-tuning, SFT) para familiarizar o gerenciador de contexto com um formato de saída estruturado e, em seguida, refina a política com Group Relative Policy Optimization (GRPO), usando o desempenho real da tarefa como recompensa. Nesse processo, o gerenciador recebe o contexto atual convertido em prompt como entrada e, sob a perspectiva de um processo de decisão de Markov (Markov decision process, MDP), escolhe a cada etapa quais mensagens manter ou modificar. Além disso, em vez de observar apenas a resposta final correta, o método também projeta recompensas de processo (process reward) que refletem excesso no tamanho do contexto, chamadas repetitivas de ferramentas, erros de formato e sinais intermediários da tarefa, fazendo com que o modelo aprenda também a qualidade das edições locais, crucial em tarefas de longo horizonte. Com isso, o AdaCoM funciona não como um simples sumarizador, mas como uma política adaptativa de edição que ajuda o agente a manter um raciocínio estável.

Experimentalmente, foi confirmada melhora de desempenho quando aplicado a vários agentes em benchmarks de busca na web e pesquisa aprofundada. Em particular, observou-se que, quanto maior o desempenho básico original de agentes do tipo ReAct (Reasoning and Acting), mais vantajosa é uma preservação de contexto com maior fidelidade; por outro lado, para agentes relativamente mais fracos, uma compressão mais agressiva para mantê-los em uma faixa de raciocínio estável mostrou-se mais eficaz. Os autores interpretam isso como um fidelity-reliability trade-off, mostrando que o gerenciamento de contexto deve variar de acordo com o nível de capacidade do agente. Além disso, em experimentos de transferência, observou-se que a estratégia do AdaCoM tende a ser transferida melhor entre agentes com características de capacidade semelhantes, sugerindo que a direção de um gerenciador de contexto externo reutilizável pode ser mais prática do que uma única regra universal de sumarização. Em suma, este estudo apresenta um avanço metodológico importante ao tratar, nas tarefas de longo horizonte, não apenas a capacidade de raciocínio do agente como causa das falhas, mas também o próprio gerenciamento de contexto que sustenta esse raciocínio como um componente central passível de aprendizado.

Resumo (Abstract)

Agentes de modelo de linguagem de grande porte (LLM) estão enfrentando cada vez mais tarefas de longo horizonte, como busca na web e pesquisa aprofundada, e em aplicações reais o contexto acumulado pode causar degradação de desempenho em contextos longos e falhas de raciocínio. Trabalhos anteriores mitigaram isso por meio de gerenciamento de contexto com controle do lado do agente ou estratégias fixas, como sumarização, mas esses métodos exigem treinar o próprio agente para adaptação, o que os torna pouco práticos para agentes de código fechado, além de ignorarem que agentes diferentes podem precisar de estratégias diferentes.

Propomos o Adaptive Context Management (AdaCoM), que treina um LLM externo para gerenciar o contexto de um agente congelado por meio de ações flexíveis de modificação e aprendizado por reforço de ponta a ponta. Em diversos agentes, em benchmarks de busca na web e pesquisa aprofundada, o AdaCoM melhora substancialmente o desempenho ao preservar restrições e progresso da tarefa enquanto remove conteúdo obsoleto. As estratégias aprendidas revelam um trade-off entre fidelidade e confiabilidade (Fidelity-Reliability Trade-off): agentes com melhor desempenho ReAct básico se beneficiam de uma preservação de contexto com maior fidelidade, enquanto agentes com desempenho inferior precisam de compressão mais agressiva para permanecer em um regime de raciocínio confiável. Experimentos de transferência mostram que o AdaCoM generaliza com mais eficácia entre agentes com capacidade semelhante, medida pelo desempenho ReAct básico, sugerindo um caminho prático rumo a gerenciadores de contexto reutilizáveis para sistemas de agentes.

LLM agents increasingly face long-horizon tasks such as web search and deep research in real-world applications, where accumulated context can cause long-context degradation and reasoning failures. Prior work mitigates this through context management with agent-side context control or fixed strategies such as summarization, which require training the agent itself for adaptation - making it impractical for closed-source agents and ignoring that different agents may require different strategies. We introduce Adaptive Context Management (AdaCoM), which trains an external LLM to manage the context of a frozen agent through flexible modification actions and end-to-end reinforcement learning. Across diverse agents on web search and deep research benchmarks, AdaCoM substantially improves performance by preserving task constraints and progress while pruning stale content. The learned strategies reveal a Fidelity-Reliability Trade-off: agents with higher vanilla ReAct performance benefit from higher-fidelity context preservation, whereas lower-performing agents require more aggressive compression to stay within a reliable reasoning regime. Transfer experiments show that AdaCoM generalizes most effectively across agents with similar capability (measured by vanilla ReAct performance), suggesting a practical path toward reusable context managers for agent systems.

Link do artigo

https://arxiv.org/abs/2605.30785

Agentes latentes: um procedimento de pós-treinamento para debate multiagente internalizado / Latent Agents: A Post-Training Procedure for Internalized Multi-Agent Debate

Introdução ao artigo

O debate multiagente (Multi-Agent Debate) para melhorar o desempenho de raciocínio de modelos de linguagem de grande porte (Large Language Models, LLMs) é um método poderoso, mas tem a limitação de custo computacional muito alto, já que vários agentes precisam trocar longos históricos de debate. Para resolver essa ineficiência, Latent Agents propõe um procedimento de pós-treinamento (post-training) que destila para dentro de um único modelo de linguagem o debate multiagente que antes era realizado externamente. A ideia central vai além de simplesmente comprimir o resultado do debate: primeiro o modelo aprende a própria estrutura do debate e, em seguida, é levado a internalizá-la por meio de aprendizado por reforço (Reinforcement Learning, RL). Para isso, os autores primeiro construíram dados de debate compostos por 3 agentes e 2 rodadas, e atribuíram tags estruturais aos registros de debate de problemas aritméticos em que se formou um consenso final, criando um formato consistente. Em seguida, na etapa de ajuste fino supervisionado (Supervised Fine-Tuning, SFT), o modelo foi treinado com o trace completo do debate para que pudesse imitar a forma de desenvolvimento da discussão e os padrões de formação de consenso.

A etapa posterior de aprendizado por reforço corresponde ao processo de realmente internalizar o debate, indo além da simples imitação de formato. Aqui, utiliza-se Group Relative Policy Optimization (GRPO) para comparar várias saídas candidatas, combinado com uma recompensa de length clipping que pressiona para que a resposta correta apareça mais cedo. Além disso, a recompensa de formato, que ajuda a manter tags estruturais como <|Agent 1|>, <|Round 1|> e <|endofdebate|>, é gradualmente enfraquecida, de modo que o modelo seja projetado para chegar a uma conclusão apenas com representações internas, sem depender mais de longos debates externos. Esse agendamento dinâmico de recompensas e a redução de comprimento desempenham um papel importante na diminuição da aparência computacional externa do debate, preservando ao mesmo tempo as vantagens de raciocínio geradas pela interação entre agentes. Nos experimentos, o modelo proposto apresentou desempenho igual ou superior ao do explicit multi-agent debate em GSM8K, MMLU-Pro e Big-Bench Hard (BBH), enquanto os tokens utilizados foram reduzidos em até 93%, melhorando significativamente a eficiência de inferência. Em especial, em algumas configurações, apenas o SFT já produziu resultados superiores aos do método tradicional de debate, e a adição de RL reforçou simultaneamente a precisão e a redução de tokens, evidenciando claramente a eficácia do procedimento de internalização.

Outra contribuição importante deste estudo é a análise mecanística de como o debate internalizado altera o espaço de representações do modelo. Por meio de experimentos de activation steering, os autores mostraram que subespaços específicos por agente (agent-specific subspaces) se formam dentro do modelo internalizado, e que existem direções interpretáveis correspondentes às perspectivas de agentes diferentes. Isso sugere que as vantagens do debate multiagente não vêm simplesmente da média do texto de saída, mas estão relacionadas ao processo em que diferentes perspectivas de raciocínio são estruturalmente separadas e combinadas no espaço latente. Além disso, um experimento que internaliza um agente malicioso e depois o suprime com negative steering mostra que comportamentos nocivos podem se tornar mais localizados e fáceis de controlar no modelo destilado. Em consequência, Latent Agents é significativo por apresentar um método para comprimir o raciocínio multiagente de forma eficiente em custo e, ao mesmo tempo, esclarecer a estrutura e a controlabilidade do raciocínio internalizado.

Resumo (Abstract)

Foi demonstrado que o debate multiagente melhora o raciocínio em grandes modelos de linguagem (LLMs). No entanto, ele exige muito poder computacional, pois requer a geração de longas transcrições antes de responder às perguntas. Para lidar com essa ineficiência, desenvolvemos um framework que destila o debate multiagente em um único LLM por meio de um pipeline de fine-tuning em dois estágios, combinando aprendizado da estrutura de debate com internalização via agendamento dinâmico de recompensas e clipping de comprimento. Em vários modelos e benchmarks, nossos modelos internalizados igualam ou superam o desempenho do debate multiagente explícito usando até 93% menos tokens. Em seguida, investigamos a base mecanística dessa capacidade por meio de activation steering, constatando que a internalização cria subespaços específicos de agentes: direções interpretáveis no espaço de ativações que correspondem a diferentes perspectivas de agentes. Também demonstramos uma aplicação prática: ao instilar agentes maliciosos no LLM por meio de debate internalizado e, em seguida, aplicar negative steering para suprimi-los, mostramos que a destilação torna comportamentos nocivos mais fáceis de localizar e controlar, com reduções menores no desempenho geral em comparação com a aplicação de steering em modelos base. Nossos achados oferecem uma nova perspectiva para compreender capacidades multiagente em modelos destilados e fornecem diretrizes práticas para controlar comportamentos de raciocínio internalizados. O código está disponível em: https://github.com/johnsk95/latent_agents

Multi-agent debate has been shown to improve reasoning in large language models (LLMs). However, it is compute-intensive, requiring generation of long transcripts before answering questions. To address this inefficiency, we develop a framework that distills multi-agent debate into a single LLM through a two-stage fine-tuning pipeline combining debate structure learning with internalization via dynamic reward scheduling and length clipping. Across multiple models and benchmarks, our internalized models match or exceed explicit multi-agent debate performance using up to 93% fewer tokens. We then investigate the mechanistic basis of this capability through activation steering, finding that internalization creates agent-specific subspaces: interpretable directions in activation space corresponding to different agent perspectives. We further demonstrate a practical application: by instilling malicious agents into the LLM through internalized debate, then applying negative steering to suppress them, we show that distillation makes harmful behaviors easier to localize and control with smaller reductions in general performance compared to steering base models. Our findings offer a new perspective for understanding multi-agent capabilities in distilled models and provide practical guidelines for controlling internalized reasoning behaviors. Code available at https://github.com/johnsk95/latent_agents

Link do artigo

https://arxiv.org/abs/2604.24881

MOSS: autoevolução por meio de reescrita em nível de código-fonte em sistemas de agentes autônomos / MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems

Introdução ao artigo

Sistemas de agentes autônomos capazes de aprender por conta própria mesmo após a implantação e de reduzir falhas recorrentes sempre foram um objetivo importante, mas, na prática, a maioria dos sistemas permanece no nível de configurações editáveis em texto e prompts, sem conseguir tratar de forma fundamental defeitos estruturais. Proposto para superar essa limitação, o MOSS é um sistema projetado para usar a adaptação em nível de código-fonte (source-level adaptation) como meio de autoevolução, permitindo reescrever a própria estrutura central de execução do agente. Os autores destacam que elementos que determinam o comportamento real, como roteamento, ordem de hooks, invariantes de estado e dispatch, existem no código; por isso, inevitavelmente permanecem falhas que não podem ser alcançadas por abordagens que apenas alteram arquivos de skill ou a composição de prompts. Em contraste, o código-fonte é apresentado como um meio de adaptação muito mais geral e estável, por ser Turing-completo, corresponder a um superconjunto de artefatos baseados em texto e operar de forma determinística sem depender de o modelo seguir instruções ou não.

A metodologia do MOSS tem como ponto central partir de evidências de falha em produção (production-failure evidence) coletadas automaticamente e, com base nelas, executar de forma fixa um pipeline evolutivo em múltiplas etapas. A modificação de código em si é delegada a um agente externo de codificação via CLI (command-line interface), mas o MOSS controla diretamente a ordem das etapas e a decisão final, separando assim a responsabilidade entre geração e validação. As versões candidatas criadas dessa forma são validadas em trial workers efêmeros (ephemeral trial workers), nos quais os lotes de falha são reproduzidos novamente (replay), o que é significativo por realizar uma avaliação baseada na reprodução de situações reais de falha, e não apenas em análise estática simples. Apenas candidatos que passam na validação são promovidos por meio de um in-place container swap condicionado ao consentimento do usuário e, depois disso, se não satisfizerem as condições de health probe, são automaticamente revertidos, garantindo também a segurança operacional.

Essa abordagem se diferencia das anteriores porque, ao contrário dos agentes autoevolutivos existentes, que tentavam melhorar principalmente áreas expressáveis em texto, como prompts, esquemas de memória e grafos de workflow, ela toma como alvo de evolução o sistema inteiro, incluindo até o harness de execução real. Assim, o MOSS pode ser entendido não apenas como um modelo que gera respostas melhores, mas como uma plataforma adaptativa que corrige diretamente defeitos estruturais de sistemas de agentes em operação. Em especial, ao combinar um pipeline determinístico com procedimentos de validação, promoção e rollback, ele propõe um caminho de autoaperfeiçoamento mais robusto do que abordagens centradas em texto, vulneráveis a long-context drift. Esse design mostra claramente que, para que agentes autônomos evoluam com segurança em ambientes de serviço reais, não basta apenas capacidade de aprendizado: também são necessários mecanismos de engenharia de sistemas que incluam implantação, validação e rollback.

Experimentalmente, o MOSS elevou no OpenClaw a grader score média em quatro tarefas de 0,25 para 0,61 com apenas um ciclo de evolução, alcançando essa melhoria sem intervenção humana. Esse resultado mostra que a abordagem de reescrita em nível de código-fonte não é apenas teoricamente mais geral, mas também pode levar a melhorias significativas de desempenho em sistemas de agentes de produção reais. Em última análise, este artigo amplia o escopo dos agentes autoevolutivos do ajuste de texto para a reconfiguração em nível de código, apresentando uma nova possibilidade para que sistemas autônomos corrijam por conta própria falhas recorrentes.

Resumo (Abstract)

Após a implantação, sistemas autônomos de agentes são, em geral, estáticos: eles não aprendem com interações dos usuários, e falhas recorrentes persistem até que a próxima atualização conduzida por humanos entregue uma correção. Em resposta a isso, surgiram agentes autoevolutivos, mas eles também limitam a evolução a artefatos editáveis por texto — arquivos de habilidades, configurações de prompt, esquemas de memória e grafos de workflow — deixando o harness do agente intocado. Como roteamento, ordenação de hooks, invariantes de estado e dispatch existem no código, e não em artefatos textuais, toda uma categoria de falhas estruturais é fisicamente inacessível a partir da camada de texto. Argumentamos que a adaptação em nível de código-fonte é um meio fundamentalmente mais geral. Ela é Turing-complete, um superconjunto estrito de todo escopo editável por texto, produz efeito de forma determinística em vez de depender da conformidade do modelo de base, e não se degrada sob o drift de contextos longos. Apresentamos o MOSS, um sistema que realiza self-rewriting em nível de código-fonte sobre substratos agentic de produção. Cada evolução é ancorada em um lote de evidências de falhas em produção selecionado automaticamente e segue por um pipeline determinístico de múltiplas etapas. A modificação de código é delegada a uma CLI externa e plugável de agente de codificação, enquanto o MOSS mantém a ordem das etapas e os veredictos. Os candidatos são verificados ao reproduzir o lote contra a imagem candidata em workers de teste efêmeros e, em seguida, promovidos por meio de uma troca in-place de contêiner, condicionada ao consentimento do usuário, com rollback condicionado por health probes. No OpenClaw, o MOSS eleva a pontuação média do avaliador em quatro tarefas de 0.25 para 0.61 em um único ciclo, sem intervenção humana.

Sistemas autônomos de agentes são, em grande parte, estáticos após a implantação: não aprendem com interações dos usuários, e falhas recorrentes persistem até que a próxima atualização conduzida por humanos entregue uma correção. Agentes autoevolutivos surgiram em resposta, mas todos confinam a evolução a artefatos editáveis por texto -- arquivos de habilidades, configurações de prompt, esquemas de memória e grafos de workflow -- e deixam o harness do agente intocado. Como roteamento, ordenação de hooks, invariantes de estado e dispatch vivem no código, e não em qualquer artefato textual, uma classe inteira de falhas estruturais é fisicamente inacessível a partir da camada de texto. Argumentamos que a adaptação em nível de código-fonte é um meio fundamentalmente mais geral: é Turing-complete, um superconjunto estrito de todo escopo editável por texto, produz efeito de forma determinística em vez de por conformidade do modelo de base e não se deteriora sob o drift de contexto longo. Apresentamos o MOSS, um sistema que realiza self-rewriting em nível de código-fonte sobre substratos agentic de produção. Cada evolução é ancorada em um lote automaticamente selecionado de evidências de falhas em produção e avança por um pipeline determinístico de múltiplas etapas; a modificação de código é delegada a uma CLI externa e plugável de agente de codificação, enquanto o MOSS retém a ordem das etapas e os veredictos. Os candidatos são verificados ao reproduzir o lote contra a imagem candidata em workers de teste efêmeros e, depois, promovidos por meio de uma troca in-place de contêiner com rollback condicionado por health probes e controlada por consentimento do usuário. No OpenClaw, o MOSS eleva a pontuação média do avaliador em quatro tarefas de 0.25 para 0.61 em um único ciclo, sem intervenção humana.

Link do artigo

https://arxiv.org/abs/2605.22794

Alinhamento de segurança de LMs por meio de jogos não cooperativos / Safety Alignment of LMs via Non-cooperative Games

Apresentação do artigo

O alinhamento de segurança de language models (LMs) se consolidou como uma tarefa central na pesquisa recente de alinhamento em IA, porque precisa garantir simultaneamente resistência a entradas maliciosas e manutenção da utilidade. Se as abordagens anteriores se limitavam principalmente a gerar prompts adversariais e depois ajustar o modelo sequencialmente para se defender deles, este artigo redefine o alinhamento de segurança como um jogo de soma não zero entre um Attacker LM e um Defender LM, em que ambos adaptam suas estratégias em tempo real. Os dois modelos são treinados conjuntamente por meio de online reinforcement learning (RL), e o atacante evolui para explorar estratégias de red-teaming mais sofisticadas, enquanto o defensor evolui para responder de forma mais robusta a esses ataques. Essa estrutura de adaptação mútua se distingue claramente dos métodos anteriores por não ser um aprendizado pontual sobre um dataset estático; em vez disso, à medida que a competição entre os modelos se repete, o próprio limite de desempenho continua a se expandir.

Em especial, os autores buscaram fornecer uma supervisão mais estável e reduzir a vulnerabilidade a reward hacking ao desenhar o sinal de recompensa não como uma pontuação point-wise, mas como um sinal baseado em preferências obtidas por pairwise comparison.

No centro dessa metodologia está o procedimento de treinamento chamado AdvGame, que tem como objetivo deslocar para fora a fronteira de Pareto entre segurança e utilidade. Em termos concretos, como atacante e defensor são atualizados alternadamente refletindo as políticas mais recentes um do outro, o defensor é treinado contra ataques realmente mais fortes, e o atacante aprende uma capacidade geral de detectar vulnerabilidades que não fica restrita às fraquezas de um modelo específico. O desenvolvimento matemático no apêndice mostra o processo central de transformar esse problema de otimização em forma de jogo em algo efetivamente treinável: a distribuição ótima da política do atacante é expressa como uma forma de reponderação exponencial em relação a uma política de referência, e depois reorganizada em um formato que compara dois candidatos para eliminar a constante de normalização. Nesse processo, o treinamento do atacante deixa de ser um problema de regressão para pontuações absolutas e passa a ser um problema de acertar a ordenação relativa de preferências, o que leva naturalmente a uma função-objetivo da família de Direct Preference Optimization (DPO). Em outras palavras, toda a trajectory formada em conjunto pelo prompt gerado pelo atacante e pela resposta do defensor passa a ser o objeto de comparação, permitindo obter um sinal de aprendizado mais rico, baseado em interações reais.

Além disso, o artigo conecta a probabilidade de preferência ao modelo de Bradley-Terry e introduz o conceito de preferência marginalizada, que agrega as interações entre atacante e defensor no espaço de logits. Com isso, torna-se possível aprender uma estrutura de preferências que reflete não apenas o prompt em si, mas o efeito combinado de prompt e resposta, ao mesmo tempo em que se faz a média do ruído das respostas individuais. Como as atualizações do atacante são realizadas sobre uma distribuição dinâmica continuamente atualizada pela política atual do defensor, o processo converge não para ataques especializados em um alvo fixo, mas para uma capacidade de red-teaming que pode ser generalizada para diferentes modelos. Como o resumo destaca, essa otimização conjunta é significativa porque, ao mesmo tempo em que fornece um Defender LM mais útil e mais resistente a ataques, também produz um Attacker LM forte e de uso geral que pode ser aplicado em ambientes reais de implantação. Em última instância, este estudo propõe uma nova direção metodológica capaz de elevar simultaneamente a segurança e a utilidade dos language models, ao expandir o alinhamento de segurança de uma simples técnica defensiva para um problema de aprendizado que aproveita de forma sistemática a competição e a adaptação entre modelos.

Resumo(Abstract)

Garantir a segurança dos modelos de linguagem (LMs) sem perder sua utilidade continua sendo um desafio central no alinhamento de IA. As abordagens atuais dependem de treinamento adversarial sequencial: gerar prompts adversariais e então ajustar finamente os LMs para se defender deles. Propomos um paradigma diferente: formular o alinhamento de segurança como um jogo de soma não zero entre um Attacker LM e um Defender LM, treinados conjuntamente via aprendizado por reforço online. Cada LM se adapta continuamente às estratégias em evolução do outro, promovendo uma melhoria iterativa. Nosso método usa um sinal de recompensa baseado em preferências, derivado de comparações em pares, em vez de pontuações pontuais (point-wise), oferecendo uma supervisão mais robusta e potencialmente reduzindo reward hacking. Nossa receita de RL, AdvGame, desloca a fronteira de Pareto entre segurança e utilidade, resultando em um Defender LM que é ao mesmo tempo mais útil e mais resiliente a ataques adversariais. Além disso, o Attacker LM resultante converge para um forte agente de red teaming de propósito geral, que pode ser implantado diretamente para sondar modelos-alvo arbitrários. O código está em github.com/facebookresearch/advgame.

Ensuring the safety of language models (LMs) while maintaining their usefulness remains a critical challenge in AI alignment. Current approaches rely on sequential adversarial training: generating adversarial prompts and fine-tuning LMs to defend against them. We introduce a different paradigm: framing safety alignment as a non-zero-sum game between an Attacker LM and a Defender LM trained jointly via online reinforcement learning. Each LM continuously adapts to the other's evolving strategies, driving iterative improvement. Our method uses a preference-based reward signal derived from pairwise comparisons instead of point-wise scores, providing more robust supervision and potentially reducing reward hacking. Our RL recipe, AdvGame, shifts the Pareto frontier of safety and utility, yielding a Defender LM that is simultaneously more helpful and more resilient to adversarial attacks. In addition, the resulting Attacker LM converges into a strong, general-purpose red-teaming agent that can be directly deployed to probe arbitrary target models. Code at github.com/facebookresearch/advgame.

Link do artigo

https://arxiv.org/abs/2512.20806

Planejar, Observar, Recuperar: Um benchmark e arquiteturas para assistência procedural proativa / Plan, Watch, Recover: A Benchmark and Architectures for Proactive Procedural Assistance

Introdução ao artigo

Em tarefas procedurais do mundo real, os usuários nem sempre seguem exatamente a sequência definida, então os sistemas de assistência precisam ir além de simplesmente prever a próxima etapa e também decidir quando intervir e como orientar. Com base nesse problema, a abordagem proposta foca em assistência procedural proativa, interpretando a situação atual a partir de informações visuais em primeira pessoa do usuário, histórico de diálogo e contexto da consulta, além de detectar em tempo real se o usuário entrou em um estado fora do plano (out-of-plan, OOP). Em particular, o ponto central deste estudo é separar a decisão de intervir do conteúdo da intervenção, porque o julgamento de timing e a geração de coaching têm objetivos de otimização diferentes. Quando o usuário sai do procedimento normal, o sistema não deve apenas esperar em silêncio, mas fornecer instruções curtas e precisas de retorno no momento adequado; para isso, ele precisa acompanhar ao mesmo tempo o estado procedural e os indícios visuais.

Para sustentar esse objetivo, os autores primeiro construíram o EgoProactive, um grande conjunto de dados wearable em primeira pessoa, que inclui anotações explícitas de desvios do plano e etapas de recuperação (recovery steps). Esse dataset é especialmente significativo por tornar aprendíveis os desvios e erros que ocorrem em ambientes reais, complementando as limitações de recursos anteriores, que presumiam apenas uma progressão linear de etapas. Além disso, por meio do Pro²Bench, que reconfigura cinco benchmarks existentes — Ego4D, EPIC-KITCHENS, EgoExo4D, HoloAssist e HowTo100M — em uma única estrutura de orientação proativa, os autores estabeleceram um ambiente de avaliação que permite comparar de forma consistente, em diferentes domínios, a capacidade de acertar o timing da intervenção e de orientar a recuperação. Isso é importante porque amplia a compreensão procedural de um simples problema de previsão da próxima etapa para um problema de medir a qualidade real da interação.

Do lado dos modelos, foi proposta uma decoupled planner-interaction architecture, que separa o componente de planejamento do componente de interação, permitindo otimizar o rastreamento do estado procedural e a geração de respostas de acordo com seus papéis, em vez de acoplá-los frouxamente. Além disso, foi aplicada uma seleção de clipes ancorada no plano (plan-anchored), de modo que, em vez de processar indiscriminadamente o vídeo inteiro, o sistema prioriza os trechos visuais diretamente relacionados à etapa atual e à decisão de recuperação. Essa abordagem reduz ruído desnecessário em vídeos longos em primeira pessoa e, ao mesmo tempo, permite captar com mais clareza os sinais de desvio do plano e as pistas necessárias para a recuperação. Em outras palavras, essa arquitetura pode ser vista como uma estrutura que alinha ao plano tanto “o que dizer” quanto “o que observar”.

Também merece destaque o fato de que, por meio de uma receita de pós-treinamento (post-training), os autores mostraram que o método não é um ajuste especial restrito a um modelo específico, mas um procedimento geral transferível para diferentes backbones. Na prática, foi feita reprodução entre backbones em Llama 4 e Qwen-3.6-VL para verificar a portabilidade do método, o que sugere que ele pode ser facilmente ampliado no futuro para modelos multimodais mais poderosos. Nos resultados experimentais, o sistema treinado com Llama-4 apresentou maior qualidade objetiva de intervenção (objective intervention quality) em seis datasets, superando baselines fortes como Claude Opus 4.6, Gemini 3.1 Pro, GPT 5.2 e Qwen3 VL 235B. Em especial, na condição com plano oráculo (oracle plan), o desempenho da orientação de recuperação melhorou significativamente quando a qualidade do plano foi controlada, dando suporte claro à validade de uma estrutura que separa o rastreamento do plano da geração de intervenções. Em resumo, este estudo redefine o assistente multimodal para usuários que executam tarefas procedurais não como um sistema de previsão de etapas, mas como um coach de intervenção em tempo real, apresentando em conjunto dados, arquitetura e estratégia de treinamento mais próximos de situações reais.

Resumo (Abstract)

Vou alinhar a estrutura e a terminologia ao resumo original, traduzindo a primeira frase diretamente para o português e depois revisando todo o resumo para que soe natural e acadêmico.
Concebemos um sistema de assistente multimodal proativo que oferece aos usuários orientação passo a passo em tempo real em tarefas procedimentais, decidindo de forma autônoma quando interromper e como orientar. No entanto, o progresso tem sido limitado pela ausência de benchmarks em larga escala e entre domínios que reflitam condições realistas, especialmente o caso comum em que os usuários se desviam da sequência de etapas esperada. Abordamos essa lacuna com quatro contribuições: (1) lançamos o EgoProactive, um dataset wearable-egocentric em larga escala para assistência procedimental proativa com anotações explícitas de Out-of-Plan (OOP) e etapas de recuperação; (2) ampliamos cinco benchmarks consolidados (Ego4D, EPIC-KITCHENS, EgoExo4D, HoloAssist, HowTo100M) para o Pro^2Bench sob um esquema unificado de orientação proativa; (3) propomos uma arquitetura desacoplada de planejador--interação especializada em estado procedimental, pistas visuais e inserção de recuperação; (4) introduzimos uma receita de pós-treinamento que transfere entre famílias de modelos, validada por replicação entre backbones no Llama 4 e no Qwen-3.6-VL. Em experimentos extensivos, nosso sistema Llama-4 treinado melhora substancialmente a qualidade objetiva de intervenção em relação a fortes baselines proprietários (Claude Opus 4.6, Gemini 3.1 Pro, GPT 5.2) e baselines de pesos abertos (Qwen3 VL 235B) em todos os seis datasets. Experimentos com plano-oráculo mostram ainda que, quando a qualidade do plano é controlada, o modelo duplex treinado produz orientação de alta qualidade e grandes ganhos na recuperação de Out-of-Plan (OOP).

Concebemos um sistema de assistente multimodal proativo que oferece aos usuários orientação passo a passo em tempo real em uma tarefa procedimental, decidindo de forma autônoma \textit{quando} interromper e \textit{como} orientar. No entanto, o progresso é limitado pela ausência de benchmarks em larga escala e entre domínios que reflitam condições realistas, particularmente o caso comum em que os usuários se desviam da sequência de etapas esperada. Abordamos essa lacuna com quatro contribuições: \textbf{(1)}~lançamos o \textbf{EgoProactive}, um dataset wearable-egocentric em larga escala para assistência procedimental proativa com anotações explícitas de Out-of-Plan (OOP) e etapas de recuperação; \textbf{(2)}~ampliamos cinco benchmarks estabelecidos (Ego4D, EPIC-KITCHENS, EgoExo4D, HoloAssist, HowTo100M) para o \textbf{Pro\textsuperscript{2}Bench} sob um esquema unificado de orientação proativa; \textbf{(3)}~propomos uma \textbf{arquitetura desacoplada de planejador--interação} especializada em estado procedimental, pistas visuais e inserção de recuperação; \textbf{(4)}~introduzimos uma receita de pós-treinamento que transfere entre famílias de modelos, validada por replicação entre backbones no Llama~4 e no Qwen-3.6-VL. Em experimentos extensivos, nosso sistema Llama-4 treinado melhora substancialmente a qualidade objetiva de intervenção em relação a fortes baselines proprietários (Claude Opus~4.6, Gemini~3.1~Pro, GPT~5.2) e baselines de pesos abertos (Qwen3~VL~235B) em todos os seis datasets. Experimentos com plano-oráculo mostram ainda que, quando a qualidade do plano é controlada, o modelo duplex treinado produz orientação de alta qualidade e grandes ganhos na recuperação de Out-of-Plan.

Link do artigo

https://arxiv.org/abs/2606.04970

FuzzingBrain V2: sistema LLM multiagente para descoberta e reprodução automatizadas de vulnerabilidades / FuzzingBrain V2: A Multi-Agent LLM System for Automated Vulnerability Discovery and Reproduction

Introdução do artigo

À medida que as ameaças de segurança causadas por vulnerabilidades de software se agravam a cada dia, cerca de 50.000 CVEs (Common Vulnerabilities and Exposures) foram reportados somente em 2025. Embora os grandes modelos de linguagem (LLMs) tragam novas possibilidades para a detecção automatizada de vulnerabilidades, as abordagens atuais baseadas em LLM ainda enfrentam problemas fundamentais. Especificamente, os relatórios de vulnerabilidade gerados por LLMs apresentam altas taxas de falsos positivos e, ao mesmo tempo, carecem de mecanismos de verificação reproduzíveis; além disso, usam níveis de granularidade subótimos, como nível de função ou de linha, para localizar precisamente as vulnerabilidades, e têm dificuldade para lidar de forma eficaz com vulnerabilidades que envolvem dependências complexas entre funções e condições de disparo em múltiplas camadas. O FuzzingBrain V2 apresentado neste estudo é um sistema LLM multiagente projetado para enfrentar sistematicamente esses desafios, utilizando o framework OSS-Fuzz do Google como backend de validação para garantir 100% de reprodutibilidade para todas as vulnerabilidades reportadas. Além disso, o sistema introduz uma nova abstração chamada Suspicious Point, que incorpora informações de fluxo de controle, possibilitando a localização precisa de vulnerabilidades em um ponto ótimo entre os níveis de função e de linha; junto disso, melhora a cobertura de funções sob restrições de recursos por meio de uma estratégia de fuzzing em duas camadas, combinada com análise hierárquica de funções baseada em lógica. Além disso, reforça o raciocínio sobre vulnerabilidades complexas com ferramentas de análise estática e dinâmica baseadas em Model Context Protocol e um sofisticado trabalho de engenharia de contexto. No dataset C/C++ da competição final do AIxCC 2025, o FuzzingBrain V2 alcançou taxa de detecção de 90% (36 vulnerabilidades entre 40) e, em ambientes reais de produção, descobriu um total de 41 vulnerabilidades antes desconhecidas em 12 projetos de código aberto, das quais 26 foram confirmadas, 23 corrigidas e 2 receberam identificadores CVE. Esses resultados demonstram claramente que a abordagem multiagente, que combina capacidade de análise semântica e detecção baseada em execução, pode ir além de resultados puramente acadêmicos e melhorar diretamente a segurança de software de produção real.

Resumo (Abstract)

As vulnerabilidades de software representam ameaças críticas à segurança, com quase 50.000 CVEs reportadas em 2025. Embora os Large Language Models (LLMs) mostrem potencial para a detecção automatizada de vulnerabilidades, três desafios principais ainda permanecem. Primeiro, os relatórios de vulnerabilidade gerados por LLMs sofrem com altas taxas de falsos positivos e carecem de verificação reprodutível. Segundo, as abordagens existentes baseadas em LLM usam granularidades subótimas para localizar vulnerabilidades: a análise em nível de função deixa passar bugs quando o contexto se torna amplo, enquanto a análise em nível de linha não fornece contexto suficiente. Terceiro, as abordagens existentes têm dificuldade para raciocinar sobre vulnerabilidades com dependências complexas entre funções e condições de disparo. Apresentamos o FuzzingBrain V2, um sistema multiagente que aborda essas lacunas por meio de quatro contribuições principais: (1) análise de vulnerabilidades totalmente automatizada, baseada no OSS-Fuzz do Google, garantindo que todas as vulnerabilidades reportadas sejam reproduzíveis por fuzzer; (2) Suspicious Point, uma nova abstração baseada em fluxo de controle para localização precisa de vulnerabilidades na granularidade ideal; (3) análise hierárquica de funções orientada por lógica com fuzzing em duas camadas, aumentando a cobertura de funções sob restrições de recursos; (4) ferramentas de análise estática e dinâmica baseadas em MCP, com engenharia de contexto, que aprimoram o raciocínio sobre vulnerabilidades complexas. No dataset C/C++ da competição final AIxCC 2025, o FuzzingBrain V2 alcançou uma taxa de detecção de 90% (36 de 40 vulnerabilidades). Em implantação no mundo real, o FuzzingBrain V2 descobriu 29 vulnerabilidades zero-day em 12 projetos de código aberto, todas confirmadas e corrigidas pelos mantenedores, com 2 recebendo IDs CVE.

Software vulnerabilities pose critical security threats, with nearly 50,000 CVEs reported in 2025. While Large Language Models (LLMs) show promise for automated vulnerability detection, three key challenges remain. First, LLM-generated vulnerability reports suffer from high false positive rates and lack reproducible verification. Second, existing LLM-based approaches use suboptimal granularities for vulnerability localization: function-level analysis overlooks bugs when context becomes extensive, while line-level analysis lacks sufficient context. Third, existing approaches have difficulty reasoning about vulnerabilities with complex cross-function dependencies and triggering conditions. We present FuzzingBrain V2, a multi-agent system that addresses these gaps through four key contributions: (1) fully automated vulnerability analysis built on Google's OSS-Fuzz, ensuring all reported vulnerabilities are fuzzer-reproducible; (2) Suspicious Point, a novel control-flow-based abstraction for precise vulnerability localization at the optimal granularity; (3) logic-driven hierarchical function analysis with dual-layer fuzzing enhancing function coverage under resource constraints; (4) MCP-based static and dynamic analysis tools with context engineering enhancing complex vulnerability reasoning. On the AIxCC 2025 Final Competition C/C++ dataset, FuzzingBrain V2 achieved 90% detection rate (36 of 40 vulnerabilities). In real-world deployment, FuzzingBrain V2 discovered 29 zero-day vulnerabilities across 12 open-source projects, all confirmed and fixed by maintainers, with 2 assigned CVE IDs.

Link do artigo

https://arxiv.org/abs/2605.21779

⚠️Publicidade⚠️: 🔥Achou útil este texto organizado pela comunidade de usuários do PyTorch na Coreia🇰🇷? Ao se tornar membro, você recebe os principais textos por e-mail💌! Você também pode receber notificações de novos posts pelo Telegram ou por Slack/Discord/Teams/Dooray/GoogleChat etc.. :D

2 comentários

lyh4215 2026-06-09

Obrigado!

ninebow 2026-06-10

Obrigado por lerem e até deixarem um comentário!!! 🙇

[2026/06/01 ~ 07] Coletânea de artigos de AI/ML para acompanhar nesta semana

PyTorchKR🔥🇰🇷 🤔💭

Resumo dos principais pontos de cada artigo

Harness-1: aprendizado por reforço para agentes de busca com harnesses de externalização de estado / Harness-1: Reinforcement Learning for Search Agents with State-Externalizing Harnesses

Introdução ao artigo

Resumo (Abstract)

Link do artigo

Leia mais

Esqueça a attention: tudo o que você precisa é de Importance-Aware Attention / Forget Attention: Importance-Aware Attention Is All You Need

Apresentação do artigo

Resumo(Abstract)

Link do artigo

Os transformadores precisam de três projeções? Estudo sistemático de variantes de QKV / Do Transformers Need Three Projections? Systematic Study of QKV Variants

Introdução ao artigo

Resumo(Abstract)

Link do artigo

Leitura adicional

Compilar workflows agênticos nos pesos de LLM: qualidade próxima ao nível frontier com custo 100 vezes menor / Compiling Agentic Workflows into LLM Weights: Near-Frontier Quality at Two Orders of Magnitude Less Cost

Apresentação do artigo

Resumo (Abstract)

Link do artigo

Leia mais

Aprendendo gerenciamento de contexto compatível com agentes para tarefas de longo horizonte / Learning Agent-Compatible Context Management for Long-Horizon Tasks

Introdução ao artigo

Resumo (Abstract)

Link do artigo

Agentes latentes: um procedimento de pós-treinamento para debate multiagente internalizado / Latent Agents: A Post-Training Procedure for Internalized Multi-Agent Debate

Introdução ao artigo

Resumo (Abstract)

Link do artigo

Leia mais

MOSS: autoevolução por meio de reescrita em nível de código-fonte em sistemas de agentes autônomos / MOSS: Self-Evolution through Source-Level Rewriting in Autonomous Agent Systems

Introdução ao artigo

Resumo (Abstract)

Link do artigo

Leia mais

Alinhamento de segurança de LMs por meio de jogos não cooperativos / Safety Alignment of LMs via Non-cooperative Games

Apresentação do artigo

Resumo(Abstract)

Link do artigo

Leia mais

Planejar, Observar, Recuperar: Um benchmark e arquiteturas para assistência procedural proativa / Plan, Watch, Recover: A Benchmark and Architectures for Proactive Procedural Assistance

Introdução ao artigo

Resumo (Abstract)

Link do artigo

Leia mais

FuzzingBrain V2: sistema LLM multiagente para descoberta e reprodução automatizadas de vulnerabilidades / FuzzingBrain V2: A Multi-Agent LLM System for Automated Vulnerability Discovery and Reproduction

Introdução do artigo

Resumo (Abstract)

Link do artigo

Leituras relacionadas

2 comentários