ML para acompanhar nesta semana

(discuss.pytorch.kr)

7 pontos por ninebow 2025-12-24 | Ainda não há comentários. | Compartilhar no WhatsApp

[2025/12/15 ~ 21] Artigos de AI/ML para acompanhar nesta semana

PyTorchKR🔥🇰🇷 🤔💭

1️⃣ A importância da adaptação de agentes: os artigos selecionados nesta semana enfatizam a necessidade de adaptação (adaptation) para aumentar o desempenho e a confiabilidade de sistemas de IA baseados em agentes. Foi proposto um framework sistemático que integra a adaptação de agentes e de ferramentas, esclarecendo o espaço de projeto de diferentes estratégias de adaptação e oferecendo orientações práticas.

2️⃣ Avanços nos sistemas de memória: a memória de agentes está se consolidando como uma função central dos sistemas de IA, e estão sendo pesquisados sistemas de memória de várias formas e funções. Ao reconhecer que os métodos tradicionais de classificação de memória não capturam adequadamente a diversidade da memória de agentes moderna, os pesquisadores propõem novas direções ao analisar de forma integrada a forma, a função e a dinâmica da memória.

3️⃣ Transição e otimização eficientes de modelos: artigos recentes vêm explorando formas de melhorar simultaneamente velocidade e precisão ao migrar de modelos de linguagem autorregressivos (AR) para modelos de linguagem por difusão (dLM). Em especial, a pesquisa tem avançado no sentido de maximizar o desempenho dos modelos por meio da comparação de diferentes padrões de atenção e estratégias de treinamento, além da proposta de princípios e metodologias para uma transição eficiente.

Adaptação de IA agentic / Adaptation of Agentic AI

Introdução ao artigo

Os sistemas de IA agentic de ponta, baseados em foundation models, estão cada vez mais capacitados para executar tarefas mais complexas e especializadas. Para melhorar o desempenho, a confiabilidade e a generalização desses sistemas, a adaptação vem se estabelecendo como um mecanismo central. Este estudo apresenta um framework sistemático que abrange tanto a adaptação de agentes quanto a adaptação de ferramentas, tornando mais claro o espaço de projeto de várias estratégias de adaptação e explicitando os trade-offs entre elas. O framework é subdividido em adaptação baseada em sinais de execução de ferramentas e adaptação baseada em sinais de saída do agente, além de também se dividir em adaptação de ferramentas na forma de agentes críticos e agentes supervisores.

O estudo revisa abordagens representativas em cada categoria, analisa seus pontos fortes e limitações e destaca os principais desafios em aberto e oportunidades futuras. Em particular, os métodos iniciais do tipo A1 concentravam-se em supervised fine-tuning (SFT) e direct preference optimization (DPO), e essas abordagens evoluíram coletando respostas do modelo relacionadas ao uso de ferramentas para obter sinais de treinamento. Modelos iniciais como o Toolformer tentaram melhorar o uso de ferramentas com sinais de aprendizado auto-supervisionado, mas havia limitações para aplicação em ambientes reais.

Para superar essas limitações, modelos posteriores como TRICE e ToolAlpaca avançaram para a introdução de aprendizado por reforço com feedback de execução, com o objetivo de melhorar diretamente a capacidade de uso de ferramentas. O TP-LLaMA apresenta uma nova abordagem que aproveita trajetórias fracassadas para que o modelo possa aprender com falhas, enquanto o Gorilla enfatiza a correção estrutural para gerar a chamada de API correta em um grande conjunto de APIs de machine learning. O CodeAct propõe um paradigma de aprendizado por meio de interação direta com um ambiente de código executável, permitindo definir objetivos de aprendizado com base em resultados verificáveis.

Por fim, métodos baseados em RLVR (recompensas verificáveis) permitem que o modelo aprenda diretamente por meio de interações online com ferramentas e com o ambiente, tornando a adaptação dinâmica e sensível ao contexto. Essas pesquisas contribuem para o avanço dos sistemas de IA agentic e oferecem uma base importante para aplicações futuras tanto na pesquisa quanto na prática.

Resumo do artigo (Abstract)

Os sistemas de IA agente de ponta são baseados em foundation models que podem ser adaptados para planejar, raciocinar e interagir com ferramentas externas a fim de realizar tarefas cada vez mais complexas e especializadas. À medida que esses sistemas expandem suas capacidades e seu escopo, a adaptação se torna um mecanismo central para melhorar desempenho, confiabilidade e generalização. Neste artigo, unificamos esse campo de pesquisa em rápida expansão em um framework sistemático que abrange tanto adaptações de agentes quanto adaptações de ferramentas. Nós o decompomos ainda em adaptação de agentes baseada em sinais de execução de ferramentas e adaptação de agentes baseada em sinais de saída do agente, bem como em adaptação de ferramentas agnóstica ao agente e adaptação de ferramentas supervisionada pelo agente. Mostramos que esse framework ajuda a esclarecer o espaço de projeto das estratégias de adaptação em IA agentic, explicita seus trade-offs e fornece orientação prática para selecionar ou alternar entre estratégias durante o projeto de sistemas. Em seguida, revisamos abordagens representativas em cada categoria, analisamos seus pontos fortes e limitações e destacamos desafios em aberto e oportunidades futuras. De forma geral, este artigo busca oferecer uma base conceitual e um roteiro prático para pesquisadores e profissionais que desejam construir sistemas de IA agentic mais capazes, eficientes e confiáveis.
> Cutting-edge agentic AI systems are built on foundation models that can be adapted to plan, reason, and interact with external tools to perform increasingly complex and specialized tasks. As these systems grow in capability and scope, adaptation becomes a central mechanism for improving performance, reliability, and generalization. In this paper, we unify the rapidly expanding research landscape into a systematic framework that spans both agent adaptations and tool adaptations. We further decompose these into tool-execution-signaled and agent-output-signaled forms of agent adaptation, as well as agent-agnostic and agent-supervised forms of tool adaptation. We demonstrate that this framework helps clarify the design space of adaptation strategies in agentic AI, makes their trade-offs explicit, and provides practical guidance for selecting or switching among strategies during system design. We then review the representative approaches in each category, analyze their strengths and limitations, and highlight key open challenges and future opportunities. Overall, this paper aims to offer a conceptual foundation and practical roadmap for researchers and practitioners seeking to build more capable, efficient, and reliable agentic AI systems.

Link do artigo

https://arxiv.org/abs/2512.16301

Memória na era dos agentes de IA / Memory in the Age of AI Agents

Introdução ao artigo

A memória de agentes vem se consolidando como um elemento essencial nos sistemas modernos de inteligência artificial (IA), e este estudo tem como objetivo organizar e analisar de forma sistemática a complexidade e a diversidade dessa memória. Pesquisas anteriores diferem significativamente em motivação, forma de implementação e protocolos de avaliação da memória de agentes, o que levou à falta de clareza conceitual. Por isso, o artigo define com clareza o escopo da memória de agentes e enfatiza suas diferenças em relação à memória de grandes modelos de linguagem (LLM), à geração aumentada por recuperação (RAG) e à engenharia de contexto.

O estudo analisa a memória de agentes sob três perspectivas: forma, função e dinâmica. Na perspectiva formal, apresenta três formas principais — memória em nível de token, paramétrica e latente — e explica as características e o funcionamento de cada uma. Na perspectiva funcional, distingue entre memória factual, experiencial e de trabalho, esclarecendo o papel desempenhado por cada tipo. Já na perspectiva dinâmica, explora os processos pelos quais a memória é formada, evolui e é recuperada, analisando como ela opera enquanto o agente interage com o ambiente.

Este estudo também oferece um resumo abrangente de benchmarks de memória e frameworks open source para apoiar o desenvolvimento prático, além de apresentar perspectivas sobre novas fronteiras de pesquisa, como automação de memória, integração com aprendizado por reforço, memória multimodal e memória multiagente. Essa abordagem estabelece uma base para reconsiderar a memória como um conceito primitivo de primeira classe no design de sistemas de memória para agentes e indica direções para pesquisas futuras.

Como resultado, espera-se que este artigo contribua para o avanço dos sistemas de memória de agentes de IA ao organizar de forma abrangente o estado atual da pesquisa em memória de agentes e fornecer insights para estudos futuros.

Resumo do artigo (Abstract)

A memória emergiu como uma capacidade central de agentes baseados em foundation models e continuará a desempenhar um papel importante no futuro. À medida que a pesquisa sobre memória de agentes se expande rapidamente e recebe uma atenção sem precedentes, a área também vem se tornando cada vez mais fragmentada. Trabalhos existentes que se enquadram no guarda-chuva da memória de agentes frequentemente diferem substancialmente em suas motivações, implementações e protocolos de avaliação, enquanto a proliferação de terminologias de memória definidas de forma frouxa obscureceu ainda mais a clareza conceitual. Taxonomias tradicionais, como memória de longo/curto prazo, mostraram-se insuficientes para capturar a diversidade dos sistemas contemporâneos de memória de agentes. Este trabalho tem como objetivo oferecer um panorama atualizado da pesquisa atual em memória de agentes. Começamos delimitando claramente o escopo da memória de agentes e distinguindo-a de conceitos relacionados, como memória de LLM, retrieval augmented generation (RAG) e engenharia de contexto. Em seguida, examinamos a memória de agentes sob as lentes unificadas de formas, funções e dinâmicas. Do ponto de vista das formas, identificamos três realizações dominantes da memória de agentes: memória em nível de token, paramétrica e latente. Do ponto de vista das funções, propomos uma taxonomia mais refinada que distingue memória factual, experiencial e de trabalho. Do ponto de vista das dinâmicas, analisamos como a memória é formada, evolui e é recuperada ao longo do tempo. Para apoiar o desenvolvimento prático, compilamos um resumo abrangente de benchmarks de memória e frameworks open source. Além da consolidação, articulamos uma perspectiva voltada ao futuro sobre fronteiras emergentes de pesquisa, incluindo automação de memória, integração com aprendizado por reforço, memória multimodal, memória multiagente e questões de confiabilidade. Esperamos que este survey sirva não apenas como referência para trabalhos existentes, mas também como base conceitual para repensar a memória como um conceito primitivo de primeira classe no design da futura inteligência agêntica.
> Memory has emerged, and will continue to remain, a core capability of foundation model-based agents. As research on agent memory rapidly expands and attracts unprecedented attention, the field has also become increasingly fragmented. Existing works that fall under the umbrella of agent memory often differ substantially in their motivations, implementations, and evaluation protocols, while the proliferation of loosely defined memory terminologies has further obscured conceptual clarity. Traditional taxonomies such as long/short-term memory have proven insufficient to capture the diversity of contemporary agent memory systems. This work aims to provide an up-to-date landscape of current agent memory research. We begin by clearly delineating the scope of agent memory and distinguishing it from related concepts such as LLM memory, retrieval augmented generation (RAG), and context engineering. We then examine agent memory through the unified lenses of forms, functions, and dynamics. From the perspective of forms, we identify three dominant realizations of agent memory, namely token-level, parametric, and latent memory. From the perspective of functions, we propose a finer-grained taxonomy that distinguishes factual, experiential, and working memory. From the perspective of dynamics, we analyze how memory is formed, evolved, and retrieved over time. To support practical development, we compile a comprehensive summary of memory benchmarks and open-source frameworks. Beyond consolidation, we articulate a forward-looking perspective on emerging research frontiers, including memory automation, reinforcement learning integration, multimodal memory, multi-agent memory, and trustworthiness issues. We hope this survey serves not only as a reference for existing work, but also as a conceptual foundation for rethinking memory as a first-class primitive in the design of future agentic intelligence.

Link do artigo

https://arxiv.org/abs/2512.13564

Balanço detalhado em agentes guiados por grandes modelos de linguagem / Detailed balance in large language model-driven agents

Introdução ao artigo

Agentes baseados em grandes modelos de linguagem (LLM) oferecem uma abordagem inovadora para resolver problemas complexos, mas, apesar do sucesso empírico desses sistemas, ainda falta um framework teórico. Este estudo propõe uma nova metodologia para estimar a direcionalidade da geração de LLMs com base no princípio da ação mínima. Essa metodologia demonstra estatisticamente o balanço detalhado encontrado nas transições geradas por LLMs ao medir experimentalmente as probabilidades de transição entre estados produzidos pelo modelo. Essa descoberta sugere que os LLMs podem não estar aprendendo um conjunto específico de regras ou estratégias, mas sim aprendendo implicitamente uma classe de funções potenciais que pode transcender diferentes arquiteturas de LLM e templates de prompt.

Este estudo é o primeiro a descobrir leis físicas macroscópicas na dinâmica gerativa de LLMs e representa uma tentativa de estabelecer uma teoria da dinâmica macroscópica de sistemas complexos de inteligência artificial (IA). Com isso, busca lançar as bases para que a pesquisa em agentes de IA evolua de um conjunto de práticas de engenharia para uma ciência previsível e quantificável. Compreender a dinâmica das transições que ocorrem no processo de geração dos LLMs é essencial para esclarecer o princípio de funcionamento desses sistemas.

O estudo propõe um novo framework teórico capaz de explicar a dinâmica de geração de LLMs e, por meio disso, aponta uma nova direção para a pesquisa em IA. Os dados coletados por meio da abordagem experimental contribuem de forma importante para compreender o princípio de funcionamento dos LLMs e podem servir como material de base para pesquisas futuras. Espera-se que esses resultados ofereçam insights importantes para o design e o uso de agentes baseados em LLM e contribuam para o avanço da tecnologia de IA.

Resumo do artigo (Abstract)

Os agentes baseados em large language models (LLMs) estão surgindo como um novo e poderoso paradigma para resolver problemas complexos. Apesar do sucesso empírico dessas práticas, ainda falta um arcabouço teórico capaz de compreender e unificar sua dinâmica macroscópica. Neste artigo, propomos um método baseado no princípio da ação mínima para estimar a direcionalidade gerativa subjacente dos LLMs incorporados em agentes. Ao medir experimentalmente as probabilidades de transição entre estados gerados por LLMs, descobrimos estatisticamente um balanço detalhado nas transições geradas por LLMs, indicando que a geração por LLM talvez não seja alcançada, em geral, pelo aprendizado de conjuntos de regras e estratégias, mas sim pelo aprendizado implícito de uma classe de funções potenciais subjacentes que pode transcender diferentes arquiteturas de LLM e templates de prompt. Até onde sabemos, esta é a primeira descoberta de uma lei física macroscópica na dinâmica gerativa de LLMs que não depende de detalhes específicos do modelo. Este trabalho é uma tentativa de estabelecer uma teoria da dinâmica macroscópica de sistemas complexos de IA, com o objetivo de elevar o estudo de agentes de IA de um conjunto de práticas de engenharia para uma ciência construída sobre medições efetivas, previsíveis e quantificáveis.
> Large language model (LLM)-driven agents are emerging as a powerful new paradigm for solving complex problems. Despite the empirical success of these practices, a theoretical framework to understand and unify their macroscopic dynamics remains lacking. This Letter proposes a method based on the least action principle to estimate the underlying generative directionality of LLMs embedded within agents. By experimentally measuring the transition probabilities between LLM-generated states, we statistically discover a detailed balance in LLM-generated transitions, indicating that LLM generation may not be achieved by generally learning rule sets and strategies, but rather by implicitly learning a class of underlying potential functions that may transcend different LLM architectures and prompt templates. To our knowledge, this is the first discovery of a macroscopic physical law in LLM generative dynamics that does not depend on specific model details. This work is an attempt to establish a macroscopic dynamics theory of complex AI systems, aiming to elevate the study of AI agents from a collection of engineering practices to a science built on effective measurements that are predictable and quantifiable.

Link do artigo

https://arxiv.org/abs/2512.10047

Efficient-DLM: de modelos autorregressivos a diffusion language models, e além em velocidade / Efficient-DLM: From Autoregressive to Diffusion Language Models, and Beyond in Speed

Introdução do artigo

Os diffusion language models (dLMs) vêm surgindo como um paradigma promissor por possibilitarem geração paralela não autorregressiva, mas apresentam menor eficiência de treinamento quando comparados aos modelos de linguagem autorregressivos (Autoregressive Language Models, AR). Para resolver esse problema, foi proposta uma metodologia para converter modelos AR em dLMs eficientes. Os pesquisadores analisaram as limitações dos métodos existentes de conversão de AR para dLM e descobriram que preservar a distribuição dos pesos pré-treinados do modelo AR é essencial para uma conversão eficaz.

Com base nisso, foi introduzida uma abordagem de pré-treinamento contínuo que preserva padrões de atenção em nível de bloco. Esse método permite modelagem bidirecional dentro de cada bloco, ajudando a preservar melhor a distribuição dos pesos do modelo AR. Além disso, ele viabiliza o KV caching, oferecendo o benefício de melhorar ao mesmo tempo a precisão e a eficiência. Para reduzir a diferença na distribuição de tokens mascarados durante o treinamento, também foi proposta uma estratégia de mascaramento de tokens dependente da posição, que atribui maior probabilidade de mascaramento aos tokens posteriores durante o treinamento, permitindo imitar melhor o comportamento em teste.

Por meio dessa metodologia, foi conduzido um estudo abrangente sobre os padrões de atenção, a dinâmica de treinamento e as escolhas de design dos dLMs, oferecendo insights práticos sobre a conversão escalável de AR para dLM. Por fim, a família Efficient-DLM apresenta desempenho superior ao dos ARs e dLMs de ponta: em especial, o Efficient-DLM 8B alcançou precisão +5,4% e +2,7% maior e throughput 4,5x e 2,7x maior em comparação com Dream 7B e Qwen3 4B, respectivamente. Esse estudo apresenta uma nova metodologia para a conversão eficaz de modelos AR em dLMs e contribui para melhorar tanto a eficiência de treinamento quanto o desempenho do modelo.

Resumo (Abstract)

Os modelos de linguagem por difusão (dLMs) surgiram como um paradigma promissor que permite geração paralela e não autorregressiva, mas sua eficiência de aprendizado fica atrás da dos modelos de linguagem autorregressivos (AR) quando treinados do zero. Para lidar com isso, estudamos a conversão de AR para dLM para transformar modelos AR pré-treinados em dLMs eficientes, que se destacam em velocidade enquanto preservam a precisão de tarefa dos modelos AR. Fazemos isso identificando limitações nos padrões de atenção e nos objetivos dos métodos existentes de conversão AR-to-dLM e, em seguida, propondo princípios e metodologias para uma conversão AR-to-dLM mais eficaz. Especificamente, primeiro comparamos sistematicamente diferentes padrões de atenção e descobrimos que manter as distribuições de pesos do AR pré-treinado é fundamental para uma conversão AR-to-dLM eficaz. Assim, introduzimos um esquema de pré-treinamento contínuo com um padrão de atenção por blocos, que permanece causal entre blocos enquanto permite modelagem bidirecional dentro de cada bloco. Descobrimos que essa abordagem pode preservar melhor as distribuições de pesos dos modelos AR pré-treinados do que a modelagem totalmente bidirecional, além do benefício já conhecido de permitir KV caching, levando a um ganho duplo em precisão e eficiência. Em segundo lugar, para mitigar a lacuna entre treino e teste nas distribuições de tokens de máscara, propomos uma estratégia de mascaramento de tokens dependente da posição, que atribui probabilidades maiores de mascaramento aos tokens posteriores durante o treinamento para imitar melhor o comportamento em tempo de teste. Aproveitando esse framework, realizamos estudos extensivos sobre os padrões de atenção dos dLMs, a dinâmica de treinamento e outras escolhas de design, fornecendo insights práticos para uma conversão AR-to-dLM escalável. Esses estudos levaram à família Efficient-DLM, que supera os melhores modelos AR e dLMs do estado da arte. Por exemplo, nosso Efficient-DLM 8B alcança precisão +5,4%/+2,7% maior com throughput 4,5x/2,7x superior em comparação com Dream 7B e Qwen3 4B, respectivamente.
> Diffusion language models (dLMs) have emerged as a promising paradigm that enables parallel, non-autoregressive generation, but their learning efficiency lags behind that of autoregressive (AR) language models when trained from scratch. To this end, we study AR-to-dLM conversion to transform pretrained AR models into efficient dLMs that excel in speed while preserving AR models' task accuracy. We achieve this by identifying limitations in the attention patterns and objectives of existing AR-to-dLM methods and then proposing principles and methodologies for more effective AR-to-dLM conversion. Specifically, we first systematically compare different attention patterns and find that maintaining pretrained AR weight distributions is critical for effective AR-to-dLM conversion. As such, we introduce a continuous pretraining scheme with a block-wise attention pattern, which remains causal across blocks while enabling bidirectional modeling within each block. We find that this approach can better preserve pretrained AR models' weight distributions than fully bidirectional modeling, in addition to its known benefit of enabling KV caching, and leads to a win-win in accuracy and efficiency. Second, to mitigate the training-test gap in mask token distributions (uniform vs. highly left-to-right), we propose a position-dependent token masking strategy that assigns higher masking probabilities to later tokens during training to better mimic test-time behavior. Leveraging this framework, we conduct extensive studies of dLMs' attention patterns, training dynamics, and other design choices, providing actionable insights into scalable AR-to-dLM conversion. These studies lead to the Efficient-DLM family, which outperforms state-of-the-art AR models and dLMs, e.g., our Efficient-DLM 8B achieves +5.4%/+2.7% higher accuracy with 4.5x/2.7x higher throughput compared to Dream 7B and Qwen3 4B, respectively.

Link do artigo

https://arxiv.org/abs/2512.14067

Tudo é contexto: abstração de sistema de arquivos agentic para engenharia de contexto / Everything is Context: Agentic File System Abstraction for Context Engineering

Introdução do artigo

Os avanços em IA generativa (GenAI) trouxeram mudanças revolucionárias ao design de sistemas de software, especialmente por meio dos modelos fundacionais, redefinindo arquitetura e operação. O principal desafio atual está deixando de ser apenas o fine-tuning do modelo e passando a ser a “engenharia de contexto”, que busca capturar e estruturar de forma eficaz conhecimento externo, memória, ferramentas e entrada humana. Abordagens existentes, como prompt engineering ou geração aumentada por recuperação (RAG), são fragmentadas, e isso faz com que os artefatos de contexto gerados frequentemente sejam temporários e difíceis de verificar.

Inspirado na filosofia do Unix de que “tudo é arquivo”, este estudo propõe uma abstração de sistema de arquivos para engenharia de contexto. Essa abstração fornece uma infraestrutura persistente e gerenciada para administrar artefatos de contexto heterogêneos, permitindo montagem consistente, metadados e controle de acesso. Implementada dentro do framework AIGNE, essa arquitetura executa a montagem, entrega e verificação de contexto sob restrições de tokens por meio de um pipeline verificável de engenharia de contexto composto por geradores, loaders e avaliadores de contexto.

À medida que a GenAI se estabelece como uma colaboradora ativa no apoio à tomada de decisão, os humanos passam a ter um papel central como curadores, validadores e co-raciocinadores. O estudo demonstra a aplicabilidade prática da arquitetura proposta por meio de agentes com memória e de um assistente do GitHub baseado em MCP, mostrando sua viabilidade operacional em ambientes de desenvolvimento e industriais. Essa abordagem estabelece uma base reutilizável para uma colaboração em IA responsável e centrada no ser humano, além de contribuir para o suporte a sistemas de GenAI verificáveis e de fácil manutenção.

Em conclusão, este estudo enfatiza a importância da engenharia de contexto no design de sistemas de GenAI e mostra como uma abstração baseada em sistema de arquivos pode criar a base para um gerenciamento de contexto persistente e transparente.

Resumo do artigo (Abstract)

A IA generativa (GenAI) reformulou o design de sistemas de software ao introduzir modelos fundacionais como subsistemas pré-treinados. O novo desafio já não é mais o fine-tuning do modelo, mas sim a engenharia de contexto: como os sistemas capturam, estruturam e governam conhecimento externo, memória, ferramentas e entrada humana para possibilitar um raciocínio confiável. Práticas existentes, como engenharia de prompts, geração aumentada por recuperação (RAG) e integração de ferramentas, continuam fragmentadas e produzem artefatos transitórios que limitam a rastreabilidade e a responsabilização. Este artigo propõe uma abstração de sistema de arquivos para engenharia de contexto, inspirada no conceito Unix de que 'tudo é um arquivo'. Essa abstração oferece uma infraestrutura persistente e governada para gerenciar artefatos de contexto heterogêneos por meio de montagem uniforme, metadados e controle de acesso. Implementada no framework open source AIGNE, essa arquitetura concretiza um pipeline verificável de engenharia de contexto, composto por Context Constructor, Loader e Evaluator, que monta, entrega e valida o contexto sob restrições de tokens. À medida que a GenAI se torna uma colaboradora ativa no suporte à decisão, os humanos assumem um papel central como curadores, verificadores e co-raciocinadores. A arquitetura proposta estabelece uma base reutilizável para uma colaboração responsável e centrada no ser humano com IA, demonstrada por meio de dois exemplos: um agente com memória e um assistente do GitHub baseado em MCP. A implementação no framework AIGNE demonstra como essa arquitetura pode ser operacionalizada em ambientes de desenvolvimento e industriais, dando suporte a sistemas de GenAI verificáveis, manuteníveis e prontos para uso na indústria.
> Generative AI (GenAI) has reshaped software system design by introducing foundation models as pre-trained subsystems that redefine architectures and operations. The emerging challenge is no longer model fine-tuning but context engineering-how systems capture, structure, and govern external knowledge, memory, tools, and human input to enable trustworthy reasoning. Existing practices such as prompt engineering, retrieval-augmented generation (RAG), and tool integration remain fragmented, producing transient artefacts that limit traceability and accountability. This paper proposes a file-system abstraction for context engineering, inspired by the Unix notion that 'everything is a file'. The abstraction offers a persistent, governed infrastructure for managing heterogeneous context artefacts through uniform mounting, metadata, and access control. Implemented within the open-source AIGNE framework, the architecture realises a verifiable context-engineering pipeline, comprising the Context Constructor, Loader, and Evaluator, that assembles, delivers, and validates context under token constraints. As GenAI becomes an active collaborator in decision support, humans play a central role as curators, verifiers, and co-reasoners. The proposed architecture establishes a reusable foundation for accountable and human-centred AI co-work, demonstrated through two exemplars: an agent with memory and an MCP-based GitHub assistant. The implementation within the AIGNE framework demonstrates how the architecture can be operationalised in developer and industrial settings, supporting verifiable, maintainable, and industry-ready GenAI systems.

Link do artigo

https://arxiv.org/abs/2512.05470

Em direção a uma ciência do escalonamento de sistemas de agentes / Towards a Science of Scaling Agent Systems

Apresentação do artigo

Sistemas baseados em agentes e modelos de linguagem estão desempenhando um papel cada vez mais importante em aplicações reais de inteligência artificial, mas os princípios que determinam o desempenho desses sistemas ainda não foram suficientemente explorados. Este estudo busca preencher essa lacuna ao derivar princípios quantitativos de escalonamento para sistemas de agentes, ajudando profissionais a fazer escolhas de projeto baseadas em princípios, e não apenas em métodos empíricos. A pesquisa é conduzida por meio de quatro benchmarks distintos — Finance-Agent, BrowseComp-Plus, PlanCraft e Workbench — e realiza uma avaliação controlada de 180 configurações, aplicando cinco arquiteturas típicas (única, independente, centralizada, distribuída e híbrida) a três famílias de modelos de linguagem.

O núcleo deste estudo é a derivação de um modelo preditivo com o uso de métricas de ajuste empírico. Esse modelo considera vários fatores, como eficiência, overhead, amplificação de erros e redundância, alcançando um valor de R² validado por validação cruzada de 0,513. A pesquisa identificou três efeitos principais. Primeiro, o trade-off entre ferramentas e coordenação mostra que, sob um orçamento computacional fixo, tarefas centradas em ferramentas são afetadas de forma desproporcional pelo overhead de múltiplos agentes. Segundo, o fenômeno de saturação de capacidade mostra que, quando o desempenho de um único agente ultrapassa cerca de 45%, a coordenação passa a gerar retornos decrescentes ou até negativos. Terceiro, o fenômeno de amplificação de erros dependente da topologia mostra que agentes independentes amplificam erros em 17,2 vezes, enquanto a coordenação centralizada limita esse fator a 4,4 vezes.

A coordenação centralizada melhora o desempenho em 80,9% em tarefas paralelizáveis, como raciocínio financeiro, enquanto a coordenação distribuída apresenta desempenho relativamente superior em navegação web dinâmica. No entanto, em tarefas de raciocínio sequencial, todas as variantes multiagente resultam em uma queda de desempenho de 39% a 70%. Essas descobertas contribuem de forma importante para prever o desempenho de sistemas de agentes e sugerir estratégias ótimas de coordenação, oferecendo princípios preditivos baseados nas características das tarefas agentivas. Ao derivar quantitativamente princípios de escalonamento para sistemas de agentes, este estudo estabelece uma base para que profissionais projetem e otimizem sistemas de maneira mais eficaz.

Resumo(Abstract)

Agentes, sistemas baseados em modelos de linguagem (LM) capazes de raciocinar, planejar e agir, estão se tornando o paradigma dominante para aplicações de IA no mundo real. Apesar dessa ampla adoção, os princípios que determinam seu desempenho ainda são pouco explorados, levando profissionais a depender de heurísticas em vez de escolhas de design fundamentadas. Preenchemos essa lacuna ao derivar princípios quantitativos de escalonamento para sistemas de agentes. Avaliamos isso em quatro benchmarks diversos: Finance-Agent, BrowseComp-Plus, PlanCraft e Workbench. Usando cinco arquiteturas canônicas (Single, Independent, Centralized, Decentralized, Hybrid) implementadas em três famílias de LLM, realizamos uma avaliação controlada abrangendo 180 configurações com ferramentas e orçamentos de tokens padronizados. Derivamos um modelo preditivo usando métricas empíricas de coordenação, incluindo eficiência, sobrecarga, amplificação de erros e redundância, que alcança $R^2=0.513$ com validação cruzada. Identificamos três efeitos dominantes: (1) um trade-off de coordenação de ferramentas: sob orçamentos computacionais fixos, tarefas intensivas em ferramentas sofrem desproporcionalmente com a sobrecarga multiagente. (2) uma saturação de capacidade: a coordenação produz retornos decrescentes ou negativos (beta=-0.408, p<0.001) quando as linhas de base de agente único excedem ~45%. (3) amplificação de erro dependente da topologia: agentes independentes amplificam erros em 17,2x por meio de propagação descontrolada, enquanto a coordenação centralizada limita isso a 4,4x. A coordenação centralizada melhora o desempenho em 80,9% em tarefas paralelizáveis como raciocínio financeiro, enquanto a coordenação descentralizada se destaca em navegação web dinâmica (+9,2% vs. +0,2%). Ainda assim, para tarefas de raciocínio sequencial, todas as variantes multiagente degradaram o desempenho em 39-70%. O framework prevê a estratégia de coordenação ideal para 87% das configurações mantidas para teste, oferecendo um princípio preditivo de escalonamento agêntico com base em propriedades mensuráveis da tarefa.
> Agents, language model (LM)-based systems that are capable of reasoning, planning, and acting are becoming the dominant paradigm for real-world AI applications. Despite this widespread adoption, the principles that determine their performance remain underexplored, leaving practitioners to rely on heuristics rather than principled design choices. We address this gap by deriving quantitative scaling principles for agent systems. We evaluate this across four diverse benchmarks: Finance-Agent, BrowseComp-Plus, PlanCraft, and Workbench. Using five canonical architectures (Single, Independent, Centralized, Decentralized, Hybrid) instantiated across three LLM families, we perform a controlled evaluation spanning 180 configurations with standardized tools and token budgets. We derive a predictive model using empirical coordination metrics, including efficiency, overhead, error amplification, and redundancy, that achieves cross-validated $R^2=0.513$. We identify three dominant effects: (1) a tool-coordination trade-off: under fixed computational budgets, tool-heavy tasks suffer disproportionately from multi-agent overhead. (2) a capability saturation: coordination yields diminishing or negative returns (beta=-0.408, p<0.001) once single-agent baselines exceed ~45%. (3) topology-dependent error amplification: independent agents amplify errors 17.2x through unchecked propagation, while centralized coordination contains this to 4.4x. Centralized coordination improves performance by 80.9% on parallelizable tasks like financial reasoning, while decentralized coordination excels on dynamic web navigation (+9.2% vs. +0.2%). Yet for sequential reasoning tasks, all multi-agent variants degraded performance by 39-70%. The framework predicts the optimal coordination strategy for 87% of held-out configurations, providing a predictive principle of agentic scaling based on measurable task properties.

Link do artigo

https://arxiv.org/abs/2512.08296

LMCache: uma camada eficiente de cache KV para inferência de LLM em escala empresarial / LMCache: An Efficient KV Cache Layer for Enterprise-Scale LLM Inference

Introdução ao artigo

Como uma nova abordagem para aumentar a eficiência da inferência de grandes modelos de linguagem (LLM), foi proposto o LMCache. Tradicionalmente, o cache KV era armazenado na memória da GPU e usado para acelerar a etapa de decodificação do LLM, mas recentemente o volume de cache KV armazenado pelos usuários passou a exceder a capacidade da memória da GPU. Nesse contexto, o LMCache se consolidou como a primeira solução open source a mover o cache KV para fora da GPU, permitindo sua reutilização entre diferentes consultas e mecanismos de inferência.

A principal funcionalidade do LMCache é oferecer suporte a offload de cache e à desagregação de prefill-decode (PD). Com isso, torna-se possível reutilizar prefixos entre consultas e facilitar a transferência de cache entre diferentes GPUs. O LMCache maximiza o desempenho com três contribuições principais. Primeiro, otimizou a movimentação de dados do cache KV por meio de operações de transferência em lote e de pipelining de computação e entrada/saída (I/O). Segundo, introduziu conectores modulares de cache KV para responder com flexibilidade à evolução de diversos mecanismos de inferência. Terceiro, fornece APIs de controle de primeira classe para coordenação de cache entre as camadas de GPU, CPU, armazenamento e rede, dando mais flexibilidade aos usuários.

O desempenho do LMCache, combinado com o vLLM, mostrou ganhos de throughput de até 15 vezes em várias tarefas, como perguntas e respostas de múltiplas rodadas e análise de documentos. Casos de uso reais confirmaram que buscar o cache KV em armazenamento remoto é eficaz para reduzir a latência de prefill, além de oferecer um insight importante: a técnica de truncamento de contexto amplamente usada na indústria pode reduzir pela metade a taxa de acerto do cache de prefixo.

Em conclusão, o LMCache é uma solução inovadora que melhora significativamente a eficiência da inferência de LLM e deve contribuir para diversos setores com sua adoção em larga escala em ambientes corporativos. Isso transforma os motores de LLM em um ecossistema de computação e armazenamento distribuídos, sugerindo a possibilidade de que dados nativos de IA venham a se estabelecer como base da inferência de LLM no futuro.

Resumo(Abstract)

O cache KV tem sido tradicionalmente armazenado na memória da GPU para acelerar a fase de decodificação da inferência de grandes modelos de linguagem (LLMs). No entanto, cresce a necessidade de mover os caches KV para fora dos dispositivos GPU, a fim de permitir a reutilização do cache entre diferentes consultas e mecanismos de inferência. Nossas estatísticas de uso no mundo real confirmam essa tendência: com o tempo, o volume total de cache KV armazenado pelos usuários cresceu rapidamente, ultrapassando em muito a capacidade da memória da GPU. Apesar dessa necessidade, ainda faltava uma solução eficiente para descarregar e transferir caches KV. Apresentamos o LMCACHE, a primeira e, até agora, mais eficiente solução open source de cache KV, que extrai e armazena fora da memória da GPU os caches KV gerados por mecanismos modernos de LLM (vLLM e SGLang), compartilhando-os entre mecanismos e consultas. O LMCACHE oferece suporte tanto a cache offloading (reutilização de prefixo entre consultas) quanto a prefill-decode (PD) disaggregation (transferência de cache entre mecanismos/GPUs). O alto desempenho e a ampla adoção do LMCACHE decorrem das seguintes contribuições: (1) movimentação de dados de cache KV altamente otimizada, viabilizada por operações de movimentação de dados em lote e por pipelining de computação e I/O; (2) um componente modular de conector de cache KV, que desacopla o LMCACHE da rápida evolução dos mecanismos de inferência; (3) uma API de controle de primeira classe para orquestração flexível de cache entre as camadas de GPU, CPU, armazenamento e rede. Nossa avaliação mostra que a combinação de LMCACHE com vLLM alcança até 15x de melhora de throughput em cargas de trabalho como perguntas e respostas em múltiplas rodadas e análise de documentos. A adoção em larga escala do LMCACHE em ambientes corporativos nos fornece insights valiosos, por exemplo, que buscar o cache KV em armazenamento remoto traz benefícios claros para a latência de prefill, e que o truncamento de contexto, uma técnica amplamente aplicada na indústria, pode reduzir pela metade a taxa de acerto do cache de prefixo. O código-fonte do LMCACHE está em: https://github.com/LMCache/LMCache.
> O cache KV tem sido tradicionalmente armazenado na memória da GPU para acelerar a fase de decodificação da inferência de grandes modelos de linguagem (LLM). No entanto, é cada vez mais necessário mover os caches KV para fora dos dispositivos GPU, para permitir a reutilização do cache entre diferentes consultas e mecanismos de inferência. Nossas estatísticas de uso no mundo real confirmam essa tendência: com o tempo, o volume total de cache KV armazenado pelos usuários cresceu rapidamente, ultrapassando em muito a capacidade da memória da GPU. Apesar dessa necessidade, falta uma solução eficiente para descarregar e transferir caches KV. Apresentamos o LMCACHE, a primeira e, até agora, mais eficiente solução open source de cache KV, que extrai e armazena fora da memória da GPU os caches KV gerados por mecanismos modernos de LLM (vLLM e SGLang) e os compartilha entre mecanismos e consultas. O LMCACHE oferece suporte tanto a cache offloading (reutilização de prefixo entre consultas) quanto a prefill-decode (PD) disaggregation (transferência de cache entre mecanismos/GPUs). O alto desempenho e a ampla adoção do LMCACHE decorrem das seguintes contribuições: (1) movimentação de dados de cache KV altamente otimizada, impulsionada por operações de movimentação de dados em lote e por pipelining de computação e I/O; (2) um componente modular de conector de cache KV, que desacopla o LMCACHE da rápida evolução dos mecanismos de inferência; (3) uma API de controle de primeira classe para orquestração flexível de cache entre as camadas de GPU, CPU, armazenamento e rede. Nossa avaliação mostra que a combinação de LMCACHE com vLLM alcança até 15x de melhora de throughput em cargas de trabalho como perguntas e respostas em múltiplas rodadas e análise de documentos. A adoção em larga escala do LMCACHE em ambientes corporativos nos fornece insights valiosos, por exemplo, que buscar o cache KV em armazenamento remoto traz benefícios para a latência de prefill e que o truncamento de contexto, uma técnica amplamente aplicada na indústria, pode reduzir significativamente pela metade a taxa de acerto do cache de prefixo. O código-fonte do LMCACHE está em: https://github.com/LMCache/LMCache.

Link do artigo

https://arxiv.org/abs/2510.09665

ReFusion: modelo de linguagem de grande porte por difusão com decodificação autorregressiva paralela / ReFusion: A Diffusion Large Language Model with Parallel Autoregressive Decoding

Introdução ao artigo

O ReFusion é um modelo inovador de difusão mascarada que utiliza decodificação autorregressiva paralela, projetado para superar as limitações dos modelos autorregressivos tradicionais (ARMs) e dos modelos de difusão mascarada (MDMs). Os ARMs tradicionais sofrem com velocidade de inferência lenta devido ao esquema de decodificação sequencial, enquanto os MDMs, embora assumam independência condicional, têm sua eficiência reduzida por gargalos arquiteturais e problemas de geração inconsistente. Para resolver essas questões, o ReFusion eleva a decodificação paralela ao nível de slot, realizada por meio de slots, que são subsequências contíguas de comprimento fixo.

O núcleo do ReFusion é o processo de decodificação "planejar e preencher" (plan-and-infill). Nesse processo, a primeira etapa identifica slots com dependência fraca, e a segunda decodifica esses slots em paralelo. Esse design baseado em slots possibilita a reutilização do cache Key-Value (KV), evitando a necessidade de recalcular o estado KV de todo o contexto a cada vez. Como resultado, a complexidade de treinamento é reduzida do espaço de combinações de tokens para o espaço de permutações em nível de slot, melhorando significativamente a eficiência.

Nos resultados experimentais, o ReFusion registrou uma melhora de 34% no desempenho e um ganho médio de velocidade de 18x em comparação com MDMs anteriores, além de reduzir a diferença de desempenho em relação a ARMs fortes e alcançar um ganho médio de velocidade de 2,33x. Esses resultados indicam que o ReFusion supera as limitações dos modelos existentes e apresenta novas possibilidades para modelos de difusão.

O ReFusion traz contribuições inovadoras tanto em desempenho quanto em velocidade por meio da reutilização do cache KV e da redução da complexidade de treinamento, oferecendo insights importantes para direções futuras de pesquisa. Espera-se que esse modelo contribua para o avanço dos grandes modelos de linguagem ao combinar as vantagens dos modelos de difusão e dos modelos autorregressivos.

Resumo(Abstract)

Os modelos autorregressivos (ARMs) são limitados pela inferência sequencial lenta. Os modelos de difusão mascarada (MDMs) oferecem uma alternativa paralela, mas apresentam desvantagens críticas: alto overhead computacional por excluir o cache de chave-valor (KV) e geração incoerente decorrente do aprendizado de dependências sobre um espaço intratável de combinações de tokens. Para lidar com essas limitações, apresentamos o ReFusion, um novo modelo de difusão mascarada que alcança desempenho e eficiência superiores ao elevar a decodificação paralela do nível de token para um nível superior de slots, em que cada slot é uma subsequência contígua de comprimento fixo. Isso é obtido por meio de um processo iterativo de decodificação de "planejar e preencher": uma etapa de planejamento baseada em difusão primeiro identifica um conjunto de slots fracamente dependentes, e uma etapa autorregressiva de preenchimento então decodifica em paralelo os slots selecionados. O design baseado em slots permite simultaneamente a reutilização total do cache KV com um framework causal unificado e reduz a complexidade de aprendizado do espaço de combinações de tokens para um espaço de permutações em nível de slot mais gerenciável. Resultados de experimentos extensivos em sete benchmarks diversos mostram que o ReFusion não apenas supera amplamente os MDMs anteriores, com ganhos de desempenho de 34% e aceleração média superior a 18 vezes, como também reduz a diferença de desempenho em relação a ARMs fortes, mantendo ainda uma aceleração média de 2,33 vezes.
> Autoregressive models (ARMs) are hindered by slow sequential inference. While masked diffusion models (MDMs) offer a parallel alternative, they suffer from critical drawbacks: high computational overhead from precluding Key-Value (KV) caching, and incoherent generation arising from learning dependencies over an intractable space of token combinations. To address these limitations, we introduce ReFusion, a novel masked diffusion model that achieves superior performance and efficiency by elevating parallel decoding from the token level to a higher slot level, where each slot is a fixed-length, contiguous sub-sequence. This is achieved through an iterative ``plan-and-infill'' decoding process: a diffusion-based planning step first identifies a set of weakly dependent slots, and an autoregressive infilling step then decodes these selected slots in parallel. The slot-based design simultaneously unlocks full KV cache reuse with a unified causal framework and reduces the learning complexity from the token combination space to a manageable slot-level permutation space. Extensive experiments on seven diverse benchmarks show that ReFusion not only overwhelmingly surpasses prior MDMs with 34% performance gains and an over 18$\times$ speedup on average, but also bridges the performance gap to strong ARMs while maintaining a 2.33$\times$ average speedup.

Link do artigo

https://arxiv.org/abs/2512.13586

Abordagem escalável de pré-treinamento para geração de tokenizadores visuais / Towards Scalable Pre-training of Visual Tokenizers for Generation

Apresentação do artigo

A qualidade do espaço latente dos tokenizadores visuais tem impacto crucial no desempenho dos modelos gerativos modernos. No entanto, os métodos existentes de aprendizado baseados em reconstrução geram espaços latentes enviesados para informações de baixo nível, o que leva ao problema de que uma melhor precisão em nível de pixel não garante necessariamente geração de maior qualidade. Esse fenômeno é definido como o “problema de escalonamento do pré-treinamento” e levanta a necessidade de que, para modelos gerativos eficazes, o espaço latente represente de forma concisa semânticas de alto nível.

Neste estudo, é proposto o VTP (Visual Tokenizer Pre-training), um novo framework unificado de pré-treinamento para tokenizadores visuais. O VTP adota uma abordagem inovadora que otimiza conjuntamente contraste imagem-texto, aprendizado auto-supervisionado e perda de reconstrução, contribuindo para melhorar o desempenho de geração. Por meio de um estudo em larga escala, foram obtidas duas descobertas principais. Primeiro, confirmou-se que a compreensão semântica é o principal motor da geração; segundo, o VTP mostra excelentes propriedades de escalonamento, com melhora efetiva no desempenho de geração conforme aumentam os recursos computacionais, os parâmetros do modelo e o tamanho dos dados.

O VTP alcançou 78,2% de acurácia zero-shot e rFID de 0,36 no ImageNet, além de registrar convergência 4,1 vezes mais rápida do que métodos avançados de destilação existentes. Além disso, o VTP obteve uma melhora de 65,8% no FID em geração downstream ao investir mais FLOPS em pré-treinamento sem modificar a especificação padrão de treinamento do DiT. Esses resultados mostram que o VTP apresenta desempenho superior ao das abordagens tradicionais de autoencoder e pode se consolidar como um modelo escalável.

Em conclusão, o VTP contribui para resolver o problema de escalonamento do pré-treinamento de tokenizadores visuais e para estabelecer uma forte correlação entre a compreensão do espaço latente e a capacidade de geração. Este estudo aponta uma nova direção para melhorar o desempenho de modelos gerativos e poderá servir como base importante para pesquisas futuras.

Resumo do artigo (Abstract)

A qualidade do espaço latente em tokenizadores visuais (por exemplo, VAEs) é crucial para os modelos generativos modernos. No entanto, o paradigma padrão de treinamento baseado em reconstrução produz um espaço latente enviesado para informações de baixo nível, levando a uma falha fundamental: uma melhor precisão em nível de pixel não resulta em geração de maior qualidade. Isso implica que investir muitos recursos computacionais no pré-treinamento de tokenizadores visuais se traduz pouco em melhor desempenho de geração. Definimos isso como o “problema de escalonamento do pré-treinamento” e propomos uma mudança necessária: para ser eficaz na geração, um espaço latente deve representar de forma concisa semânticas de alto nível. Apresentamos o VTP, um framework unificado de pré-treinamento de tokenizadores visuais que inaugura a otimização conjunta de perdas contrastivas imagem-texto, auto-supervisionadas e de reconstrução. Nosso estudo em larga escala revela duas descobertas principais: (1) compreensão é um fator central da geração e (2) o desempenho generativo apresenta propriedades de escalonamento muito melhores, nas quais o desempenho cresce de forma eficaz com o compute, os parâmetros e os dados alocados ao pré-treinamento do tokenizador visual. Após o pré-treinamento em larga escala, nosso tokenizador oferece um perfil competitivo (78,2 de acurácia zero-shot e 0,36 de rFID no ImageNet) e convergência 4,1 vezes mais rápida em geração em comparação com métodos avançados de destilação. Mais importante ainda, ele escala de forma eficaz: sem modificar as especificações padrão de treinamento do DiT, apenas investir mais FLOPS no pré-treinamento do VTP alcança uma melhora de 65,8% em FID na geração downstream, enquanto autoencoders convencionais estagnam muito cedo com 1/10 dos FLOPS. Nossos modelos pré-treinados estão disponíveis em https://github.com/MiniMax-AI/VTP.

The quality of the latent space in visual tokenizers (e.g., VAEs) is crucial for modern generative models. However, the standard reconstruction-based training paradigm produces a latent space that is biased towards low-level information, leading to a foundation flaw: better pixel-level accuracy does not lead to higher-quality generation. This implies that pouring extensive compute into visual tokenizer pre-training translates poorly to improved performance in generation. We identify this as the pre-training scaling problem and suggest a necessary shift: to be effective for generation, a latent space must concisely represent high-level semantics. We present VTP, a unified visual tokenizer pre-training framework, pioneering the joint optimization of image-text contrastive, self-supervised, and reconstruction losses. Our large-scale study reveals two principal findings: (1) understanding is a key driver of generation, and (2) much better scaling properties, where generative performance scales effectively with compute, parameters, and data allocated to the pretraining of the visual tokenizer. After large-scale pre-training, our tokenizer delivers a competitive profile (78.2 zero-shot accuracy and 0.36 rFID on ImageNet) and 4.1 times faster convergence on generation compared to advanced distillation methods. More importantly, it scales effectively: without modifying standard DiT training specs, solely investing more FLOPS in pretraining VTP achieves 65.8% FID improvement in downstream generation, while conventional autoencoder stagnates very early at 1/10 FLOPS. Our pre-trained models are available at https://github.com/MiniMax-AI/VTP.

Link do artigo

https://arxiv.org/abs/2512.13687

CLaRa: integração entre busca e geração por meio de raciocínio latente contínuo / CLaRa: Bridging Retrieval and Generation with Continuous Latent Reasoning

Introdução ao artigo

CLaRa (Continuous Latent Reasoning) é um framework inovador desenvolvido para superar as limitações dos sistemas de geração aumentada por recuperação (Retrieval-augmented generation, RAG). As abordagens tradicionais de RAG têm dificuldade para lidar com contextos longos e sofrem com a separação entre a otimização da busca e da geração, o que reduz a eficiência. Para resolver esses problemas, o CLaRa propõe uma nova metodologia que integra busca e geração por meio de compressão baseada em embeddings e otimização conjunta em um espaço contínuo compartilhado.

Um dos componentes centrais do CLaRa, o SCP (síntese de dados com preservação de chaves), utiliza supervisão de perguntas e respostas (QA) e paráfrases para gerar vetores comprimidos semanticamente ricos e recuperáveis. Esse processo contribui para aumentar a precisão da busca, ao mesmo tempo em que mantém a diversidade e a qualidade dos dados. Em seguida, o CLaRa treina reranker e gerador de ponta a ponta com uma única perda de modelagem de linguagem, o que otimiza o fluxo de gradientes entre os dois módulos. Essa abordagem de otimização integrada desempenha um papel importante para alinhar a relevância da busca com a qualidade das respostas geradas.

Nos resultados experimentais, o CLaRa apresentou desempenho de ponta em compressão e reranqueamento, superando métodos existentes baseados em texto em vários benchmarks de perguntas e respostas (QA). Em especial, o CLaRa mostrou resultados favoráveis no processamento eficaz de contextos longos, comprovando que sua abordagem de otimização integrada é de fato eficaz. Esses resultados sugerem que o CLaRa tem potencial para melhorar significativamente o desempenho de sistemas RAG.

A abordagem do CLaRa se diferencia das pesquisas anteriores em RAG e se apresenta como o primeiro método a otimizar diretamente busca e geração, demonstrando potencial para aplicação em diversas áreas no futuro. Este estudo aponta novas possibilidades para sistemas RAG e deve servir como base importante para pesquisas futuras.

Resumo(Abstract)

A geração aumentada por recuperação (RAG) reforça os grandes modelos de linguagem (LLMs) com conhecimento externo, mas ainda sofre com contextos longos e com a otimização separada entre recuperação e geração. Neste trabalho, propomos o CLaRa (Continuous Latent Reasoning), uma estrutura unificada que realiza compressão baseada em embeddings e otimização conjunta em um espaço contínuo compartilhado. Para obter vetores comprimidos semanticamente ricos e recuperáveis, introduzimos o SCP, uma estrutura de síntese de dados com preservação de chaves que usa supervisão de QA e paráfrase. Em seguida, o CLaRa treina o reranker e o gerador de ponta a ponta por meio de uma única perda de modelagem de linguagem, com gradientes fluindo por ambos os módulos usando um estimador top-k diferenciável. Teoricamente, essa otimização unificada alinha a relevância da recuperação com a qualidade da resposta. Experimentos em vários benchmarks de QA mostram que o CLaRa alcança desempenho de ponta em compressão e reranking, frequentemente superando baselines ajustadas com fine-tuning baseadas em texto.
> Retrieval-augmented generation (RAG) enhances large language models (LLMs) with external knowledge but still suffers from long contexts and disjoint retrieval-generation optimization. In this work, we propose CLaRa (Continuous Latent Reasoning), a unified framework that performs embedding-based compression and joint optimization in a shared continuous space. To obtain semantically rich and retrievable compressed vectors, we introduce SCP, a key-preserving data synthesis framework using QA and paraphrase supervision. CLaRa then trains the reranker and generator end-to-end via a single language modeling loss, with gradients flowing through both modules using a differentiable top-k estimator. Theoretically, this unified optimization aligns retrieval relevance with answer quality. Experiments across multiple QA benchmarks show that CLaRa achieves state-of-the-art compression and reranking performance, often surpassing text-based fine-tuned baselines.

Link do artigo

https://arxiv.org/abs/2511.18659

[2025/12/15 ~ 21] Artigos de AI/ML para acompanhar nesta semana