ML para acompanhar nesta semana

(discuss.pytorch.kr)

1 pontos por ninebow 2025-10-10 | Ainda não há comentários. | Compartilhar no WhatsApp

[2025/09/29 ~ 10/05] Coletânea de artigos de AI/ML para acompanhar nesta semana

PyTorchKR🔥🇰🇷 🤔💭

1️⃣ Melhoria da veracidade e da confiabilidade das informações: vários artigos propõem diferentes abordagens para aumentar a precisão e a confiabilidade das informações. Por exemplo, em "Incentive-Aligned Multi-Source LLM Summaries", a veracidade das informações é garantida por meio do framework Truthful Text Summarization (TTS), e em "AgentMaster" sistemas multiagentes são usados para apoiar a busca e a análise de informações confiáveis.

2️⃣ Avanços em sistemas multiagentes: o uso de sistemas multiagentes (MAS, Multi-Agent System) vem aumentando em vários estudos, e isso tem ajudado bastante na resolução de tarefas complexas. Os artigos "TUMIX" e "AgentMaster" apresentam formas de melhorar o desempenho por meio da colaboração e da interação entre agentes com o uso de diversas ferramentas.

3️⃣ Injeção de conhecimento e aprendizado contínuo: os artigos "How to inject knowledge efficiently?" e "Continual Learning for VLMs" exploram formas de injetar conhecimento de domínio com eficiência e de aprender continuamente a partir de dados anômalos. Esses estudos se concentram em melhorar o desempenho dos modelos e evitar a perda de conhecimento previamente adquirido.

ARE: expansão de ambientes e avaliações de agentes / ARE: Scaling Up Agent Environments and Evaluations

Introdução ao artigo

O Meta Agents Research Environments (ARE), divulgado pelo Meta Superintelligence Lab, é uma plataforma de pesquisa inovadora que amplia a escalabilidade de ambientes para agentes, dá suporte à integração de aplicações sintéticas ou reais e permite executar a orquestração de agentes. O ARE fornece abstrações simples para construir ambientes complexos e diversos, permitindo que cada ambiente tenha suas próprias regras, ferramentas, conteúdos e verificadores, ajudando assim a reduzir a distância entre o desenvolvimento de modelos e a implantação no mundo real.

Uma das principais inovações do ARE é a introdução de um benchmark chamado Gaia2. O Gaia2 foi projetado para medir capacidades gerais de agentes e inclui exigências complexas que vão além de simples busca e execução: os agentes precisam lidar com ambiguidades e ruído, adaptar-se a ambientes dinâmicos, colaborar com outros agentes e realizar tarefas sob restrições de tempo. Em especial, o Gaia2 é executado de forma assíncrona, o que revela novos modos de falha que não aparecem em ambientes estáticos e permite uma avaliação mais refinada do desempenho dos agentes.

Os resultados experimentais mostram que nenhum sistema domina todo o espectro de inteligência e que capacidades de raciocínio mais fortes frequentemente vêm ao custo de eficiência. O fenômeno de estagnação nas curvas de escalonamento de orçamento destaca a necessidade de novas arquiteturas e estratégias adaptativas de computação. Essas descobertas apontam direções para a pesquisa em AI e reforçam a importância do ARE e do Gaia2.

As abstrações do ARE permitem expandir continuamente o Gaia2 para outros ambientes, possibilitando que a comunidade de pesquisa crie rapidamente novos benchmarks adaptados aos seus próprios domínios. O avanço da AI dependerá cada vez mais da definição de tarefas significativas e de avaliações robustas, e isso será viabilizado pelas capacidades do ARE. Nesse contexto, o ARE fornecerá as ferramentas necessárias para o desenvolvimento e a avaliação de agentes, desempenhando um papel importante na linha de frente da pesquisa em AI.

Resumo do artigo (Abstract)

Apresentamos o Meta Agents Research Environments (ARE), uma plataforma de pesquisa para criação escalável de ambientes, integração de aplicações sintéticas ou reais e execução de orquestrações agenticas. O ARE fornece abstrações simples para construir ambientes complexos e diversos, cada um com suas próprias regras, ferramentas, conteúdos e verificadores, ajudando a reduzir a distância entre o desenvolvimento de modelos e a implantação no mundo real. Também propomos o Gaia2, um benchmark construído no ARE e projetado para medir capacidades gerais de agentes. Além de busca e execução, o Gaia2 exige que os agentes lidem com ambiguidades e ruído, adaptem-se a ambientes dinâmicos, colaborem com outros agentes e operem sob restrições temporais. Diferentemente de benchmarks anteriores, o Gaia2 é executado de forma assíncrona, revelando novos modos de falha invisíveis em cenários estáticos. Nossos experimentos mostram que nenhum sistema domina todo o espectro de inteligência: raciocínio mais forte frequentemente tem como custo menor eficiência, e as curvas de escalonamento de orçamento entram em platô, destacando a necessidade de novas arquiteturas e estratégias adaptativas de computação. Talvez mais importante ainda, as abstrações do ARE permitem a extensão contínua do Gaia2 para outros ambientes, capacitando a comunidade a criar rapidamente novos benchmarks adaptados aos seus domínios. Na segunda metade da AI, o progresso dependerá cada vez mais da definição de tarefas significativas e de avaliações robustas para impulsionar as capacidades de fronteira.

We introduce Meta Agents Research Environments (ARE), a research platform for scalable creation of environments, integration of synthetic or real applications, and execution of agentic orchestrations. ARE provides simple abstractions to build complex and diverse environments, each with their own rules, tools, content, and verifiers, helping to bridge the gap between model development and real-world deployment. We also propose Gaia2, a benchmark built in ARE and designed to measure general agent capabilities. Beyond search and execution, Gaia2 requires agents to handle ambiguities and noise, adapt to dynamic environments, collaborate with other agents, and operate under temporal constraints. Unlike prior benchmarks, Gaia2 runs asynchronously, surfacing new failure modes that are invisible in static settings. Our experiments show that no system dominates across the intelligence spectrum: stronger reasoning often comes at the cost of efficiency, and budget scaling curves plateau, highlighting the need for new architectures and adaptive compute strategies. Perhaps more importantly, ARE abstractions enable continuous extension of Gaia2 to other environments, empowering the community to rapidly create new benchmarks tailored to their domains. In AI's second half, progress increasingly depends on defining meaningful tasks and robust evaluations to drive frontier capabilities forward.

Link do artigo

https://arxiv.org/abs/2509.17158

Resumos de LLM multiorigem com alinhamento de incentivos / Incentive-Aligned Multi-Source LLM Summaries

Introdução ao artigo

Modelos de linguagem de grande porte (LLMs) são amplamente usados nos sistemas modernos de busca e resposta para integrar textos de várias fontes e gerar uma única resposta. No entanto, os sistemas existentes têm limitações para garantir a precisão das fontes e sofrem com vulnerabilidade a conteúdo adversarial. Para resolver esse problema, o framework de Truthful Text Summarization (TTS) propõe uma abordagem inovadora que melhora a robustez factual e ainda funciona sem rótulos reais. O TTS decompõe um resumo preliminar em afirmações atômicas, avalia as afirmações de cada fonte e atribui pontuações às fontes por meio de um mecanismo adaptado de previsão por pares multitarefa que recompensa a consistência das informações. Após filtrar fontes não confiáveis, o processo realiza um novo resumo, alinhando os incentivos das fontes à honestidade informativa, de modo que relatar a verdade se torne a estratégia de maximização de utilidade.

A metodologia do TTS apresenta uma nova abordagem para garantir a veracidade das informações, destacando-se em relação às pesquisas existentes sobre sumarização de informações e LLMs. Os resultados experimentais mostraram que o TTS conseguiu melhorar a precisão factual e a robustez, preservando a fluência, o que contribui para coibir manipulações por meio da verificação e do alinhamento das informações. Esse estudo indica um potencial significativo para elevar a confiabilidade de sistemas de sumarização de informações e estabelece uma base importante para explorar aplicações futuras em diversos campos. O TTS sugere a possibilidade de aumentar consideravelmente a confiabilidade de sistemas de sumarização de informações ao mesmo tempo em que eleva a veracidade das informações e alinha os incentivos das fontes.

Resumo do artigo (Abstract)

Modelos de linguagem de grande porte (LLMs) vêm sendo cada vez mais usados em sistemas modernos de busca e resposta para sintetizar vários textos, às vezes conflitantes, em uma única resposta, mas os pipelines atuais oferecem incentivos fracos para que as fontes sejam precisas e são vulneráveis a conteúdo adversarial. Apresentamos o Truthful Text Summarization (TTS). O TTS é um framework de alinhamento de incentivos que melhora a robustez factual sem depender de rótulos de verdade de base. O TTS (i) decompõe uma síntese preliminar em afirmações atômicas, (ii) extrai a posição de cada fonte sobre cada afirmação, (iii) pontua as fontes com um mecanismo adaptado de previsão por pares multitarefa que recompensa concordância informativa e (iv) filtra fontes não confiáveis antes de resumir novamente. Estabelecemos garantias formais que alinham os incentivos de uma fonte com a honestidade informativa, fazendo do relato verdadeiro a estratégia que maximiza utilidade. Experimentos mostram que o TTS melhora a precisão factual e a robustez enquanto preserva a fluência, alinhando a exposição com a corrobor ação informativa e desincentivando manipulação.

Large language models (LLMs) are increasingly used in modern search and answer systems to synthesize multiple, sometimes conflicting, texts into a single response, yet current pipelines offer weak incentives for sources to be accurate and are vulnerable to adversarial content. We introduce Truthful Text Summarization (TTS), an incentive-aligned framework that improves factual robustness without ground-truth labels. TTS (i) decomposes a draft synthesis into atomic claims, (ii) elicits each source's stance on every claim, (iii) scores sources with an adapted multi-task peer-prediction mechanism that rewards informative agreement, and (iv) filters unreliable sources before re-summarizing. We establish formal guarantees that align a source's incentives with informative honesty, making truthful reporting the utility-maximizing strategy. Experiments show that TTS improves factual accuracy and robustness while preserving fluency, aligning exposure with informative corroboration and disincentivizing manipulation.

Link do artigo

https://arxiv.org/abs/2509.25184

TUMIX: Escalonamento em tempo de teste com múltiplos agentes por meio de mistura de uso de ferramentas / TUMIX: Multi-Agent Test-Time Scaling with Tool-Use Mixture

Apresentação do artigo

Tool-Use Mixture (TUMIX) é um framework de ensemble que executa vários agentes em paralelo, adotando diferentes estratégias de uso de ferramentas e caminhos de resposta. Essa metodologia se concentra em fornecer soluções eficazes para diferentes perguntas por meio da integração de raciocínio baseado em texto, programação e busca. Os agentes do TUMIX compartilham e refinam iterativamente suas respostas com base na pergunta e nas respostas anteriores, o que permite uma integração mais profunda e a exploração de diferentes trajetórias de raciocínio.

O TUMIX alcançou uma melhora média de 3,55% em precisão em comparação com métodos existentes de reforço por ferramentas e escalonamento em tempo de teste, além de apresentar desempenho superior em benchmarks principais de raciocínio com os modelos Gemini-2.5-Pro e Gemini-2.5-Flash. Esses resultados mostram que a diversidade e a qualidade dos agentes são fatores importantes, e o trabalho propõe um método para otimizar automaticamente o design dos agentes usando LLMs (modelos de linguagem de grande porte). Com isso, o TUMIX obteve um ganho adicional médio de 1,2% em precisão.

O TUMIX oferece uma abordagem inovadora que pode interromper o refinamento ao atingir nível de confiança suficiente, reduzindo o custo de raciocínio para 49% e mantendo o desempenho. Embora seja possível alcançar desempenho ainda maior com escalonamento adicional, o aumento de custo nesse caso é um fator importante a ser considerado em pesquisas futuras.

Este estudo apresenta uma forma de maximizar as capacidades de uso de ferramentas e raciocínio dos LLMs, contribuindo para oferecer soluções eficazes para diversos tipos de perguntas. O TUMIX mostra, com uma abordagem distinta das metodologias existentes, potencial para se generalizar melhor em aplicações reais.

Resumo do artigo (Abstract)

Embora a integração de ferramentas como Code Interpreter e Search tenha aprimorado significativamente o raciocínio de Large Language Models (LLMs) em modelos como ChatGPT Agent e Gemini-Pro, ainda faltam orientações práticas sobre o uso ideal dessas ferramentas. O desafio central é combinar de forma eficaz raciocínio textual, programação e busca para perguntas diversas. Neste artigo, propomos o Tool-Use Mixture (TUMIX), um framework de ensemble que executa vários agentes em paralelo, cada um empregando estratégias distintas de uso de ferramentas e trajetórias de resposta. Os agentes no TUMIX compartilham e refinam iterativamente as respostas com base na pergunta e nas respostas anteriores. Nos experimentos, o TUMIX alcança ganhos significativos em relação aos métodos de ponta com aumento por ferramentas e escalonamento em tempo de teste, entregando uma melhora média de acurácia de até 3,55% sobre a melhor linha de base no Gemini-2.5-Pro e no Gemini-2.5-Flash em benchmarks-chave de raciocínio, com custos de inferência praticamente equivalentes. Descobrimos que a diversidade e a qualidade dos agentes são cruciais e podem ser aprimoradas com o uso de LLMs para auto-otimizar o design dos agentes. Além disso, o TUMIX pode interromper o refinamento ao atingir confiança suficiente, preservando o desempenho com apenas 49% do custo de inferência. Um escalonamento adicional pode alcançar desempenho mais alto, embora com custo maior.
> While integrating tools like Code Interpreter and Search has significantly enhanced Large Language Model (LLM) reasoning in models like ChatGPT Agent and Gemini-Pro, practical guidance on optimal tool use is lacking. The core challenge is effectively combining textual reasoning, coding, and search for diverse questions. In this paper, we propose Tool-Use Mixture (TUMIX), an ensemble framework that runs multiple agents in parallel, each employing distinct tool-use strategies and answer paths. Agents in TUMIX iteratively share and refine responses based on the question and previous answers. In experiments, TUMIX achieves significant gains over state-of-the-art tool-augmented and test-time scaling methods, delivering an average accuracy improvement of up to 3.55% over the best baseline on Gemini-2.5-Pro and Gemini-2.5-Flash across key reasoning benchmarks, with near-equal inference costs. We find that agent diversity and quality are crucial and can be enhanced by using LLMs to auto-optimize agent designs. Furthermore, TUMIX can halt refinement upon reaching sufficient confidence, preserving performance at only 49% of the inference cost. Further scaling can achieve higher performance, albeit at a greater cost.

Link do artigo

https://arxiv.org/abs/2510.01279

Em suas próprias palavras: rastros de raciocínio personalizados para modelos pequenos os tornam melhores em raciocínio / In Their Own Words: Reasoning Traces Tailored for Small Models Make Them Better Reasoners

Introdução ao artigo

A transferência da capacidade de raciocínio de modelos de linguagem de grande porte para modelos menores frequentemente traz o problema de uma queda de desempenho inesperada. Esse fenômeno decorre de um desalinhamento distribucional (Distributional Misalignment) que surge durante o processo de Supervised Fine-Tuning (SFT), porque os rastros de raciocínio dos modelos grandes incluem tokens de baixa probabilidade que não se alinham à distribuição de probabilidade dos modelos pequenos. Como resultado, os modelos pequenos não conseguem aprender de forma eficaz os padrões avançados de raciocínio dos modelos grandes e, ao contrário, acabam enfrentando uma barreira de aprendizado.

Para resolver esse problema, a metodologia proposta, Reverse Speculative Decoding (RSD), funciona de modo que o modelo professor propõe tokens candidatos, e o modelo aluno decide se os aceita com base em sua própria distribuição de probabilidade. Nesse processo, os tokens de baixa probabilidade são filtrados, permitindo preservar etapas úteis de raciocínio dentro da faixa que o modelo pequeno consegue processar. O RSD foi aplicado ao modelo Qwen3-0.6B, e, enquanto os dados de rastros de raciocínio gerados por métodos convencionais de destilação direta reduziram o desempenho médio em 20,5%, o treinamento com rastros de raciocínio gerados por RSD mostrou uma melhora significativa de 4,9% no desempenho.

A eficácia do RSD apareceu de forma consistente em vários benchmarks de raciocínio, destacando que tokens de baixa probabilidade são o principal gargalo para uma transferência eficaz de raciocínio. Além disso, o RSD sugere que a otimização deve ser feita para cada modelo, exigindo alinhamento distribucional ajustado às representações internas específicas de cada modelo aluno. Esses resultados são avaliados como uma metodologia importante para melhorar o desempenho de modelos pequenos e indicam potencial de aplicação em pesquisas futuras.

Em conclusão, o RSD é uma abordagem inovadora para transferir de forma eficaz a capacidade de raciocínio de modelos grandes para modelos pequenos, contribuindo para aprimorar a capacidade de raciocínio dos modelos menores por meio da filtragem de tokens de baixa probabilidade. Essa pesquisa aponta uma nova direção para a melhoria de desempenho de modelos pequenos e pode servir como base importante para ampliar as possibilidades de aplicação futura em IA e machine learning.

Resumo do artigo (Abstract)

A transferência de capacidades de raciocínio de modelos de linguagem maiores para modelos menores por meio de fine-tuning supervisionado frequentemente falha de forma contraintuitiva, com degradação de desempenho mesmo quando há acesso a demonstrações de alta qualidade do modelo professor. Identificamos que essa falha decorre de um desalinhamento distribucional: os rastros de raciocínio de modelos maiores contêm tokens de baixa probabilidade sob a distribuição do aluno, excedendo a capacidade de representação interna de arquiteturas menores e criando barreiras de aprendizado em vez de orientação útil. Propomos o Reverse Speculative Decoding (RSD), um mecanismo para gerar rastros de raciocínio mais adequados ao aluno, no qual o modelo professor propõe tokens candidatos, mas o modelo aluno decide sua aceitação com base em suas próprias distribuições de probabilidade, filtrando tokens de baixa probabilidade. Quando aplicado ao Qwen3-0.6B, a destilação direta dos dados de rastros de raciocínio s1K-1.1 degrada o desempenho médio nos principais benchmarks de raciocínio em 20.5%, enquanto o mesmo modelo treinado com rastros de raciocínio gerados por RSD alcança uma melhora significativa de 4.9%. Nossa análise revela que tokens de baixa probabilidade constituem o principal gargalo na transferência de capacidade de raciocínio. No entanto, experimentos entre modelos demonstram que os rastros de RSD são específicos de cada modelo, e não universalmente aplicáveis, indicando que o alinhamento distribucional precisa ser ajustado à representação interna única de cada arquitetura de aluno.
> Transferring reasoning capabilities from larger language models to smaller ones through supervised fine-tuning often fails counterintuitively, with performance degrading despite access to high-quality teacher demonstrations. We identify that this failure stems from distributional misalignment: reasoning traces from larger models contain tokens that are low probability under the student's distribution, exceeding the internal representation capacity of smaller architectures and creating learning barriers rather than helpful guidance. We propose Reverse Speculative Decoding (RSD), a mechanism for generating student-friendly reasoning traces in which the teacher model proposes candidate tokens but the student model determines acceptance based on its own probability distributions, filtering low probability tokens. When applied to Qwen3-0.6B, direct distillation of s1K-1.1 reasoning trace data degrades average performance across major reasoning benchmarks by 20.5%, while the same model trained on RSD-generated reasoning traces achieves meaningful improvements of 4.9%. Our analysis reveals that low probability tokens constitute the critical bottleneck in reasoning ability transfer. However, cross-model experiments demonstrate that RSD traces are model-specific rather than universally applicable, indicating that distributional alignment must be tailored for each student architecture's unique internal representation.

Link do artigo

https://arxiv.org/abs/2509.22230

AgentMaster: estrutura conversacional multiagente usando os protocolos A2A e MCP para recuperação e análise de informações multimodais / AgentMaster: A Multi-Agent Conversational Framework Using A2A and MCP Protocols for Multimodal Information Retrieval and Analysis

Introdução ao artigo

No campo da inteligência artificial (AI), o avanço dos Multi-Agent Systems (MAS) tem desempenhado um papel importante na resolução colaborativa de problemas complexos por vários agentes inteligentes. No entanto, os MAS atuais enfrentam diversos desafios na comunicação fluida entre agentes, na coordenação e na interação com diferentes ferramentas e recursos. Para resolver esses problemas, este estudo propõe um novo framework modular de MAS chamado AgentMaster. Esse framework integra o protocolo de comunicação Agent-to-Agent (A2A) e o Model Context Protocol (MCP) para possibilitar coordenação dinâmica e comunicação flexível.

O AgentMaster oferece uma interface conversacional unificada, projetada para permitir que usuários interajam com o sistema em linguagem natural sem necessidade de conhecimento técnico especializado. Com isso, ele dá suporte a respostas para diversas consultas multimodais, como recuperação de informação, perguntas e respostas e análise de imagens. A principal contribuição deste estudo é permitir a coordenação eficaz entre agentes e a comunicação fluida entre agentes de busca especializados por meio do uso de A2A e MCP. Além disso, o AgentMaster decompõe consultas do usuário em workflows especializados, apoiando decomposição automatizada de consultas, atribuição de tarefas e roteamento dinâmico.

Nos resultados experimentais, o AgentMaster registrou alto desempenho, com 96.3% em BERTScore F1 e 87.1% em LLM-as-a-Judge G-Eval. Esses resultados demonstram uma coordenação automatizada robusta entre agentes e respostas relevantes específicas de domínio, contribuindo para expandir o potencial dos MAS. Este estudo mostra a inovação de um framework MAS que integra A2A e MCP e deve contribuir de forma importante para o avanço de uma AI conversacional colaborativa e escalável.

Resumo do artigo (Abstract)

A ascensão dos Sistemas Multiagentes (MAS), especialmente quando integrados a Large Language Models (LLMs), facilitou muito a resolução de tarefas complexas. No entanto, os sistemas atuais ainda enfrentam desafios na comunicação entre agentes, na coordenação e na interação com ferramentas e recursos heterogêneos. Recentemente, foram introduzidos o Model Context Protocol (MCP), da Anthropic, e o protocolo de comunicação Agent-to-Agent (A2A), do Google, e, até onde sabemos, há pouquíssimas aplicações em que ambos os protocolos sejam empregados dentro de um único framework de MAS. Apresentamos um estudo piloto do AgentMaster, um novo framework modular de MAS multiprotocolo com A2A e MCP implementados pelos próprios autores, permitindo coordenação dinâmica, comunicação flexível e desenvolvimento rápido com iteração mais ágil. Por meio de uma interface conversacional unificada, o sistema oferece suporte à interação em linguagem natural sem exigir conhecimento técnico prévio e responde a consultas multimodais para tarefas que incluem recuperação de informação, resposta a perguntas e análise de imagens. Os experimentos foram validados tanto por avaliação humana quanto por métricas quantitativas, incluindo BERTScore F1 (96,3%) e LLM-as-a-Judge G-Eval (87,1%). Esses resultados demonstram coordenação interagente automatizada robusta, decomposição de consultas, alocação de tarefas, roteamento dinâmico e respostas relevantes específicas de domínio. No geral, o framework proposto contribui para o potencial de uma IA conversacional específica de domínio, cooperativa e escalável, impulsionada por MAS.
> The rise of Multi-Agent Systems (MAS) in Artificial Intelligence (AI), especially integrated with Large Language Models (LLMs), has greatly facilitated the resolution of complex tasks. However, current systems are still facing challenges of inter-agent communication, coordination, and interaction with heterogeneous tools and resources. Most recently, the Model Context Protocol (MCP) by Anthropic and Agent-to-Agent (A2A) communication protocol by Google have been introduced, and to the best of our knowledge, very few applications exist where both protocols are employed within a single MAS framework. We present a pilot study of AgentMaster, a novel modular multi-protocol MAS framework with self-implemented A2A and MCP, enabling dynamic coordination, flexible communication, and rapid development with faster iteration. Through a unified conversational interface, the system supports natural language interaction without prior technical expertise and responds to multimodal queries for tasks including information retrieval, question answering, and image analysis. The experiments are validated through both human evaluation and quantitative metrics, including BERTScore F1 (96.3%) and LLM-as-a-Judge G-Eval (87.1%). These results demonstrate robust automated inter-agent coordination, query decomposition, task allocation, dynamic routing, and domain-specific relevant responses. Overall, our proposed framework contributes to the potential capabilities of domain-specific, cooperative, and scalable conversational AI powered by MAS.

Link do artigo

https://arxiv.org/abs/2507.21105

Método eficiente de infusão de conhecimento: lei de escalonamento da infusão de conhecimento para o pré-treinamento de Large Language Models / How to inject knowledge efficiently? Knowledge Infusion Scaling Law for Pre-training Large Language Models

Apresentação do artigo

Large Language Models (LLMs) apresentam desempenho excepcional em diversas tarefas, mas, quando carecem de otimização especializada por domínio, podem ter desempenho fraco em benchmarks de conhecimento especializado e sofrer com alucinações (hallucination). Este estudo propõe uma metodologia para injetar conhecimento de domínio de forma estratégica durante o processo de pré-treinamento (pre-training), com foco no fenômeno de colapso de memória (memory collapse) que pode surgir nesse processo. O colapso de memória ocorre devido ao excesso de infusão de conhecimento, o que reduz drasticamente a capacidade do modelo de reter conhecimento. A equipe de pesquisa chegou a duas observações principais. Primeiro, cada modelo apresenta um ponto crítico em que sua capacidade de retenção de conhecimento se deteriora rapidamente; segundo, esse ponto de colapso escala de forma consistente com o tamanho do modelo.

Com base nesses insights, o estudo propõe uma lei de escalonamento da infusão de conhecimento (knowledge infusion scaling law). Essa lei ajuda a prever a quantidade ideal de conhecimento de domínio a ser injetada em LLMs de grande porte, e sua eficácia e generalidade foram validadas por meio de experimentos com diferentes tamanhos de modelo e orçamentos de tokens correspondentes. Em especial, o trabalho mostra que o colapso de memória ocorre devido à infusão excessiva de conhecimento, sugerindo que uma infusão de conhecimento esparsa no nível de token pode ser suficiente mesmo em grandes conjuntos de dados.

A pesquisa também avaliou o desempenho de retenção de memória de acordo com diferentes tamanhos de conjuntos de dados de treinamento e frequências de infusão, descobrindo que modelos maiores podem atingir saturação com quantidades menores de conhecimento. Esses resultados oferecem insights importantes sobre especialização e otimização por domínio em LLMs e devem contribuir para o desenho de estratégias de infusão de conhecimento em pesquisas futuras. Este estudo se concentra em avaliar o efeito da infusão de conhecimento em Large Language Models, apresentar uma metodologia para avaliar a capacidade de retenção de memória e prever pontos de colapso, além de analisar o impacto de diferentes templates.

Resumo(Abstract)

Os grandes modelos de linguagem (LLMs) têm atraído atenção significativa devido às suas impressionantes capacidades gerais em diversas tarefas downstream. No entanto, sem otimização específica de domínio, eles frequentemente apresentam desempenho inferior em benchmarks de conhecimento especializado e até produzem alucinações. Estudos recentes mostram que injetar conhecimento de domínio de forma estratégica durante o pré-treinamento pode melhorar substancialmente o desempenho em tarefas downstream. Um desafio crítico está em equilibrar esse trade-off de injeção: inserir poucos dados específicos de domínio gera especialização insuficiente, enquanto a injeção excessiva provoca esquecimento catastrófico do conhecimento adquirido anteriormente. Neste trabalho, focamos no fenômeno de colapso de memória induzido por excesso de injeção. Por meio de experimentos sistemáticos, fazemos duas observações principais: 1) Ponto crítico de colapso: cada modelo apresenta um limiar além do qual sua capacidade de retenção de conhecimento se degrada acentuadamente. 2) Correlação com a escala: esses pontos de colapso escalam de forma consistente com o tamanho do modelo. Com base nesses insights, propomos uma lei de escala de injeção de conhecimento que prevê a quantidade ideal de conhecimento de domínio a ser injetada em LLMs grandes por meio da análise de suas contrapartes menores. Experimentos extensivos com diferentes tamanhos de modelo e orçamentos de tokens correspondentes validam tanto a eficácia quanto a capacidade de generalização da nossa lei de escala.
> Large language models (LLMs) have attracted significant attention due to their impressive general capabilities across diverse downstream tasks. However, without domain-specific optimization, they often underperform on specialized knowledge benchmarks and even produce hallucination. Recent studies show that strategically infusing domain knowledge during pretraining can substantially improve downstream performance. A critical challenge lies in balancing this infusion trade-off: injecting too little domain-specific data yields insufficient specialization, whereas excessive infusion triggers catastrophic forgetting of previously acquired knowledge. In this work, we focus on the phenomenon of memory collapse induced by over-infusion. Through systematic experiments, we make two key observations, i.e. 1) Critical collapse point: each model exhibits a threshold beyond which its knowledge retention capabilities sharply degrade. 2) Scale correlation: these collapse points scale consistently with the model's size. Building on these insights, we propose a knowledge infusion scaling law that predicts the optimal amount of domain knowledge to inject into large LLMs by analyzing their smaller counterparts. Extensive experiments across different model sizes and pertaining token budgets validate both the effectiveness and generalizability of our scaling law.

Link do artigo

https://arxiv.org/abs/2509.19371

Bifrost-1: conexão entre LLMs multimodais e modelos de difusão com latentes CLIP em nível de patch / Bifrost-1: Bridging Multimodal LLMs and Diffusion Models with Patch-level CLIP Latents

Introdução ao artigo

O Bifrost-1 propõe um framework inovador que conecta modelos de linguagem multimodais de grande porte (MLLMs) pré-treinados e modelos de difusão por meio de embeddings de imagem CLIP (Contrastive Language-Image Pretraining) em nível de patch. As abordagens existentes sofriam com alto custo de treinamento e problemas de eficiência, porque os LLMs não haviam experimentado representações de imagem durante o pré-treinamento. Para resolver isso, o Bifrost-1 integra ao modelo de difusão embeddings de imagem em nível de patch naturalmente alinhados com o codificador visual CLIP do MLLM. Nesse processo, por meio de uma adaptação leve do ControlNet, ele preserva a capacidade original de raciocínio multimodal do MLLM e, ao mesmo tempo, adiciona um ramo de geração visual para prever embeddings de imagem em nível de patch.

A principal inovação do Bifrost-1 está em possibilitar uma conexão eficiente entre MLLMs e modelos de difusão usando latentes CLIP em nível de patch. Com isso, ele viabiliza geração de imagens controlável e de alta fidelidade, além de melhorar significativamente a eficiência de treinamento. Os resultados experimentais mostram que o Bifrost-1 alcança desempenho equivalente ou superior ao de métodos anteriores em fidelidade visual e compreensão multimodal, além de reduzir de forma expressiva o custo computacional durante o treinamento.

Além disso, estudos de ablação abrangentes demonstraram a eficácia das escolhas de design do Bifrost-1. Esses estudos destacam a importância do processamento de informação multimodal e devem contribuir para a construção de sistemas de IA mais avançados por meio da integração entre LLMs e modelos de difusão. Espera-se que o Bifrost-1 estabeleça um novo padrão para geração e compreensão multimodal e se torne um marco importante para pesquisas futuras.

Resumo do artigo (Abstract)

Há um interesse crescente em integrar capacidades de síntese visual de alta fidelidade a grandes modelos de linguagem (LLMs), sem comprometer suas fortes capacidades de raciocínio. Métodos existentes que treinam LLMs diretamente ou tentam criar uma ponte entre LLMs e modelos de difusão (diffusion models) normalmente sofrem com treinamento caro, já que os LLMs de backbone não tiveram contato com representações de imagem durante o pré-treinamento (pretraining). Apresentamos o Bifrost-1, uma estrutura unificada que conecta MLLMs pré-treinados e modelos de difusão usando embeddings de imagem CLIP em nível de patch como variáveis latentes, naturalmente alinhados com o codificador visual CLIP do MLLM. Esses embeddings de imagem em nível de patch são integrados ao modelo de difusão por meio de uma adaptação leve de seu ControlNet. Para preservar as capacidades originais de raciocínio multimodal dos MLLMs, equipamos o MLLM com um ramo de geração visual inicializado a partir dos parâmetros originais do MLLM ao prever os embeddings de imagem em nível de patch. Ao integrar de forma fluida MLLMs pré-treinados e modelos de difusão com latentes CLIP em nível de patch, nossa estrutura permite geração de imagens controlável e de alta fidelidade com grande eficiência de treinamento. Nossos experimentos mostram que o Bifrost-1 alcança desempenho comparável ou superior ao de métodos anteriores em termos de fidelidade visual e compreensão multimodal, com custo computacional substancialmente menor durante o treinamento. Também fornecemos estudos de ablação abrangentes que mostram a eficácia de nossas escolhas de design.
> There is growing interest in integrating high-fidelity visual synthesis capabilities into large language models (LLMs) without compromising their strong reasoning capabilities. Existing methods that directly train LLMs or bridge LLMs and diffusion models usually suffer from costly training since the backbone LLMs have not seen image representations during pretraining. We present Bifrost-1, a unified framework that bridges pretrained multimodal LLMs (MLLMs) and diffusion models using patch-level CLIP image embeddings as latent variables, which are natively aligned with the MLLM's CLIP visual encoder. These patch-level image embeddings are integrated into the diffusion model with a lightweight adaptation of its ControlNet. To retain the original multimodal reasoning capabilities of MLLMs, we equip the MLLM with a visual generation branch initialized from the original MLLM parameters when predicting the patch-level image embeddings. By seamlessly integrating pretrained MLLMs and diffusion models with patch-level CLIP latents, our framework enables high-fidelity controllable image generation with significant training efficiency. Our experiments demonstrate that Bifrost-1 achieves comparable or better performance than previous methods in terms of visual fidelity and multimodal understanding, with substantially lower compute during training. We also provide comprehensive ablation studies showing the effectiveness of our design choices.

Link do artigo

https://arxiv.org/abs/2508.05954

Aprendizado contínuo para VLMs: survey e taxonomia além do esquecimento / Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting

Introdução ao artigo

Modelos de visão-linguagem (Vision-Language Models, VLMs) vêm demonstrando excelente desempenho em diversas tarefas multimodais por meio de pré-treinamento em larga escala, mas ainda enfrentam vários desafios para aprender continuamente a partir de dados não estacionários. Esse problema se destaca ainda mais porque o alinhamento cross-modal e a capacidade de generalização são vulneráveis ao esquecimento catastrófico. O aprendizado contínuo em VLMs (VLM-CL) traz problemas próprios, distintos do aprendizado contínuo tradicional em modalidade única, e este artigo identifica três principais modos de falha no VLM-CL e propõe uma taxonomia baseada em desafios para enfrentá-los.

A taxonomia proposta é composta por: (1) estratégias de replay multimodal, (2) regularização cross-modal e (3) adaptação eficiente em parâmetros. As estratégias de replay multimodal contribuem para mitigar o desvio de features cross-modais ao reproduzir informações de tarefas passadas, enquanto a regularização cross-modal se concentra em manter o alinhamento entre modalidades durante as atualizações. A adaptação eficiente em parâmetros é uma metodologia que congela os principais modelos pré-treinados e atualiza apenas um pequeno número de novos parâmetros para resolver o problema de interferência entre módulos compartilhados.

O artigo oferece uma revisão abrangente do VLM-CL, analisa os protocolos de avaliação, datasets e métricas atuais, e destaca a necessidade de benchmarks melhores, capazes de capturar o esquecimento específico de VLMs e a generalização composicional. Também apresenta direções futuras de pesquisa, incluindo pré-treinamento contínuo e aprendizado zero-shot composicional, para servir como referência útil a pesquisadores no desenvolvimento de sistemas de visão-linguagem ao longo da vida. Essa abordagem sistemática e diagnóstica ajudará a impulsionar a inovação na área de aprendizado contínuo para VLMs e contribuirá para estabelecer as bases de sistemas de IA multimodal com aprendizado realmente contínuo.

Resumo(Abstract)

Os modelos visão-linguagem (VLMs) alcançaram desempenho impressionante em diversas tarefas multimodais ao aproveitar pré-treinamento em larga escala. No entanto, permitir que aprendam continuamente a partir de dados não estacionários ainda continua sendo um grande desafio, já que suas capacidades de alinhamento entre modalidades e de generalização são particularmente vulneráveis ao esquecimento catastrófico. Diferentemente do aprendizado contínuo (CL) unimodal tradicional, os VLMs enfrentam desafios únicos, como drift de características entre modalidades, interferência de parâmetros devido a arquiteturas compartilhadas e erosão da capacidade zero-shot. Este artigo de survey oferece a primeira revisão focada e sistemática sobre aprendizado contínuo para VLMs (VLM-CL). Começamos identificando os três modos centrais de falha que degradam o desempenho em VLM-CL. Com base nisso, propomos uma taxonomia orientada por desafios para resolver o problema: (1) \textit{estratégias de replay multimodal} tratam o drift entre modalidades por meio de mecanismos de memória explícitos ou implícitos; (2) \textit{regularização entre modalidades} preserva o alinhamento entre modalidades durante as atualizações; e (3) \textit{adaptação eficiente em parâmetros} mitiga a interferência entre parâmetros com atualizações modulares ou de baixa ordem. Além disso, analisamos os protocolos de avaliação, datasets e métricas atuais, destacando a necessidade de benchmarks melhores que capturem o esquecimento específico de VLMs e a generalização composicional. Por fim, apresentamos problemas em aberto e direções futuras, incluindo pré-treinamento contínuo e aprendizado zero-shot composicional. Este survey tem como objetivo servir como uma referência abrangente e diagnóstica para pesquisadores que desenvolvem sistemas visão-linguagem ao longo da vida. Todos os recursos estão disponíveis no link a seguir: https://github.com/YuyangSunshine/….
> Vision-language models (VLMs) have achieved impressive performance across diverse multimodal tasks by leveraging large-scale pre-training. However, enabling them to learn continually from non-stationary data remains a major challenge, as their cross-modal alignment and generalization capabilities are particularly vulnerable to catastrophic forgetting. Unlike traditional unimodal continual learning (CL), VLMs face unique challenges such as cross-modal feature drift, parameter interference due to shared architectures, and zero-shot capability erosion. This survey offers the first focused and systematic review of continual learning for VLMs (VLM-CL). We begin by identifying the three core failure modes that degrade performance in VLM-CL. Based on these, we propose a challenge-driven taxonomy that maps solutions to their target problems: (1) \textit{Multi-Modal Replay Strategies} address cross-modal drift through explicit or implicit memory mechanisms; (2) \textit{Cross-Modal Regularization} preserves modality alignment during updates; and (3) \textit{Parameter-Efficient Adaptation} mitigates parameter interference with modular or low-rank updates. We further analyze current evaluation protocols, datasets, and metrics, highlighting the need for better benchmarks that capture VLM-specific forgetting and compositional generalization. Finally, we outline open problems and future directions, including continual pre-training and compositional zero-shot learning. This survey aims to serve as a comprehensive and diagnostic reference for researchers developing lifelong vision-language systems. All resources are available at: https://github.com/YuyangSunshine/….

Link do artigo

https://arxiv.org/abs/2508.04227

Federação de Agentes: uma malha de comunicação com consciência semântica para AI agentic em larga escala / Federation of Agents: A Semantics-Aware Communication Fabric for Large-Scale Agentic AI

Apresentação do artigo

Federation of Agents (FoA) é um framework inovador de orquestração distribuída que transforma a coordenação estática de múltiplos agentes em colaboração dinâmica e centrada em capacidades. O sistema introduz Vetores de Capacidade Versionados (Versioned Capability Vectors, VCVs), que convertem as capacidades dos agentes em perfis legíveis por máquina, permitindo que os agentes anunciem de forma eficaz suas habilidades, custos e limitações. A arquitetura do FoA inclui três inovações principais. Primeiro, por meio de roteamento semântico, faz o matching de tarefas com agentes, usando um índice HNSW fragmentado e executando otimização enviesada por custo que respeita restrições operacionais. Segundo, por meio de técnicas de decomposição dinâmica de tarefas, agentes compatíveis decompõem tarefas complexas em subtarefas na forma de um DAG (Directed Acyclic Graph), executando o trabalho de forma colaborativa por meio de fusão baseada em consenso. Terceiro, por meio de smart clustering, agrupa em canais de colaboração os agentes que executam subtarefas semelhantes e refina ainda mais o trabalho com k rodadas de refinamento.

O FoA é baseado na semântica publish-subscribe do MQTT para oferecer suporte a entrega de mensagens escalável e alcança complexidade sublinear por meio de matching hierárquico de capacidades e manutenção eficiente de índices. Os resultados da avaliação no HealthBench mostram que o FoA apresenta uma melhoria de desempenho de 13 vezes em comparação com a baseline de modelo único, demonstrando em especial que a colaboração reforçada por clustering é eficaz em tarefas complexas de raciocínio que exigem múltiplas perspectivas. O sistema pode escalar horizontalmente e manter desempenho consistente, mostrando que a orquestração semântica, por meio de colaboração estruturada, pode aproveitar de forma eficaz a inteligência coletiva de uma federação heterogênea de agentes de AI. Espera-se que essa pesquisa contribua para o avanço da área de AI ao apresentar uma metodologia capaz de maximizar a eficiência de sistemas multiagente e processar tarefas complexas de forma mais eficaz.

Resumo(Abstract)

A seguir está o resumo de um artigo da área de AI/ML. Apresentamos a Federation of Agents (FoA). O FoA é um framework de orquestração distribuída que transforma a coordenação estática de múltiplos agentes em colaboração dinâmica orientada por capacidades. O FoA introduz os Versioned Capability Vectors (VCVs). Eles são perfis legíveis por máquina que tornam as capacidades dos agentes pesquisáveis por meio de embeddings semânticos, permitindo que os agentes anunciem suas capacidades, custos e limitações. Nossa arquitetura combina três inovações principais: (1) roteamento semântico que faz o matching de tarefas com agentes por meio de índices HNSW fragmentados, ao mesmo tempo em que aplica restrições operacionais via otimização com viés de custo, (2) decomposição dinâmica de tarefas, em que agentes compatíveis decompõem em conjunto tarefas complexas em DAGs de subtarefas por meio de fusão baseada em consenso, e (3) clustering inteligente, que agrupa agentes que trabalham em subtarefas semelhantes em canais colaborativos para realizar refinamento por k rodadas antes da síntese. Construído sobre a semântica publish-subscribe do MQTT, o FoA atinge complexidade sublinear por meio de correspondência hierárquica de capacidades e manutenção eficiente de índices. A avaliação no HealthBench mostra uma melhoria de 13x em relação às baselines de modelo único, demonstrando que a colaboração reforçada por clustering é especialmente eficaz para tarefas complexas de raciocínio que exigem múltiplas perspectivas. O sistema escala horizontalmente mantendo desempenho consistente, mostrando que a orquestração semântica por meio de colaboração estruturada pode desbloquear a inteligência coletiva de federações heterogêneas de agentes de AI.
> We present Federation of Agents (FoA), a distributed orchestration framework that transforms static multi-agent coordination into dynamic, capability-driven collaboration. FoA introduces Versioned Capability Vectors (VCVs): machine-readable profiles that make agent capabilities searchable through semantic embeddings, enabling agents to advertise their capabilities, cost, and limitations. Our aarchitecturecombines three key innovations: (1) semantic routing that matches tasks to agents over sharded HNSW indices while enforcing operational constraints through cost-biased optimization, (2) dynamic task decomposition where compatible agents collaboratively break down complex tasks into DAGs of subtasks through consensus-based merging, and (3) smart clustering that groups agents working on similar subtasks into collaborative channels for k-round refinement before synthesis. Built on top of MQTT,s publish-subscribe semantics for scalable message passing, FoA achieves sub-linear complexity through hierarchical capability matching and efficient index maintenance. Evaluation on HealthBench shows 13x improvements over single-model baselines, with clustering-enhanced laboration particularly effective for complex reasoning tasks requiring multiple perspectives. The system scales horizontally while maintaining consistent performance, demonstrating that semantic orchestration with structured collaboration can unlock the collective intelligence of heterogeneous federations of AI agents.

Link do artigo

https://arxiv.org/abs/2509.20175

Survey sobre mecanismos de attention eficientes para grandes modelos de linguagem / Efficient Attention Mechanisms for Large Language Models: A Survey

Introdução ao artigo

Arquiteturas baseadas em Transformer são o núcleo dos grandes modelos de linguagem, mas a complexidade quadrática de tempo e memória do self-attention se torna uma grande limitação no processamento de contextos longos. Para resolver isso, pesquisas recentes propuseram duas principais técnicas de attention eficiente: linear attention, que usa aproximação por kernel, estruturas recorrentes e dinâmica de fast weights, e sparse attention, com padrões fixos, roteamento por blocos e clustering. Neste artigo de survey, esses métodos são organizados de forma sistemática ao integrar tanto as inovações algorítmicas quanto a perspectiva de hardware, além de analisar diversas abordagens de projeto para grandes modelos de linguagem pré-treinados que aplicam attention eficiente. Com isso, o trabalho fornece um material fundamental que conecta teoria e estratégias práticas para o projeto de modelos de linguagem escaláveis e eficientes.

Resumo do artigo (Abstract)

As arquiteturas baseadas em Transformer se tornaram a espinha dorsal predominante dos grandes modelos de linguagem. No entanto, a complexidade quadrática de tempo e memória da self-attention continua sendo um obstáculo fundamental para a modelagem eficiente de contextos longos. Para enfrentar essa limitação, pesquisas recentes propuseram duas categorias principais de mecanismos de atenção eficientes. Os métodos de atenção linear (linear attention) alcançam complexidade linear por meio de aproximações de kernel, formulações recorrentes ou dinâmicas de fastweight (fastweight dynamics), permitindo assim inferência escalável com menor custo computacional. Já as técnicas de atenção esparsa (sparse attention) restringem o cálculo de atenção apenas a subconjuntos selecionados de tokens com base em padrões fixos, roteamento por blocos ou estratégias de clustering, aumentando a eficiência enquanto preservam a cobertura contextual. Este artigo de survey oferece uma visão sistemática e abrangente desses avanços, integrando tanto inovações algorítmicas quanto considerações em nível de hardware. Além disso, analisamos a incorporação de atenção eficiente em grandes modelos de linguagem pré-treinados, incluindo tanto arquiteturas construídas inteiramente sobre atenção eficiente quanto designs híbridos que combinam componentes locais (local) e globais (global). Ao alinhar fundamentos teóricos com estratégias práticas de implantação, este trabalho busca servir como uma referência fundamental para avançar o design de modelos de linguagem escaláveis e eficientes.
> As arquiteturas baseadas em Transformer se tornaram a espinha dorsal predominante dos grandes modelos de linguagem. No entanto, a complexidade quadrática de tempo e memória da self-attention continua sendo um obstáculo fundamental para a modelagem eficiente de contextos longos. Para enfrentar essa limitação, pesquisas recentes propuseram duas categorias principais de mecanismos de atenção eficientes. Os métodos de atenção linear alcançam complexidade linear por meio de aproximações de kernel, formulações recorrentes ou dinâmicas de fastweight, permitindo assim inferência escalável com menor custo computacional. Já as técnicas de atenção esparsa restringem o cálculo de atenção apenas a subconjuntos selecionados de tokens com base em padrões fixos, roteamento por blocos ou estratégias de clustering, aumentando a eficiência enquanto preservam a cobertura contextual. Este survey oferece uma visão sistemática e abrangente desses avanços, integrando tanto inovações algorítmicas quanto considerações em nível de hardware. Além disso, analisamos a incorporação de atenção eficiente em grandes modelos de linguagem pré-treinados, incluindo tanto arquiteturas construídas inteiramente sobre atenção eficiente quanto designs híbridos que combinam componentes locais e globais. Ao alinhar fundamentos teóricos com estratégias práticas de implantação, este trabalho busca servir como uma referência fundamental para avançar o design de modelos de linguagem escaláveis e eficientes.

Link do artigo

https://arxiv.org/abs/2507.19595

⚠️Publicidade⚠️: Este texto organizado pelo 🔥PyTorch Korea User Group🇰🇷 foi útil para você? Se inscrever como membro, enviaremos os principais textos por e-mail💌! (O padrão é Weekly, mas também é possível mudar para Daily.)

[2025/09/29 ~ 10/05] Coletânea de artigos de AI/ML para acompanhar nesta semana