10 pontos por ninebow 2025-09-28 | Ainda não há comentários. | Compartilhar no WhatsApp

PyTorchKR🔥🇰🇷 🤔💭

1️⃣ Integração e otimização de modelos multimodais: artigos recentes vêm propondo diversas abordagens para melhorar o desempenho de Unified Multimodal Models (UMMs). Por exemplo, "Reconstruction Alignment" apresenta um método que realinha a capacidade de compreensão e geração do modelo por meio da combinação entre imagem e texto, enquanto "AToken" desenvolve um tokenizador unificado para imagens, vídeos e ativos 3D, permitindo processar diferentes tipos de entrada visual. Esses estudos estão consolidando a base para o avanço dos sistemas de IA multimodal.

2️⃣ Projeto de sistemas de dados orientados a agentes: os artigos "Supporting Our AI Overlords" e "Scaling Agents via Continual Pre-training" defendem que agentes baseados em large language models (LLMs) terão um papel importante em sistemas de dados. Eles enfatizam que esses agentes precisam aprender por meio de interações em diferentes ambientes para desenvolver as capacidades necessárias para manipulação e análise de dados. Isso abre novas oportunidades de pesquisa para o desenho de arquiteturas de sistemas de dados agent-first.

3️⃣ Aprendizado autônomo e modelos em evolução: o artigo "R-Zero" destaca a necessidade de modelos capazes de gerar dados e aprender de forma autônoma. Enquanto métodos existentes dependem de tarefas e rótulos refinados por humanos, o R-Zero cria um currículo de aprendizado autoevolutivo com dois modelos que propõem e resolvem tarefas por conta própria. Espera-se que essa abordagem tenha um papel importante no desenvolvimento de sistemas de IA com capacidades que ultrapassem a inteligência humana.


Reconstruction Alignment melhora Unified Multimodal Models / Reconstruction Alignment Improves Unified Multimodal Models

Introdução ao artigo

Unified Multimodal Models (UMMs) são uma abordagem inovadora que oferece a possibilidade de realizar diversas tarefas ao integrar capacidades de compreensão visual e geração. No entanto, os métodos de treinamento existentes dependem de pares imagem-texto, e por isso as legendas tendem a deixar escapar informações visuais detalhadas, o que acaba causando perda de desempenho. O método proposto para superar essa limitação é o Reconstruction Alignment (RecA). O RecA é uma técnica de pós-treinamento eficiente em termos de recursos que utiliza embeddings do encoder de compreensão visual como "text prompts" densos, fornecendo sinais ricos de supervisão mesmo sem legendas.

O núcleo do RecA está no processo de otimizar o UMM para reconstruir a imagem de entrada condicionado aos seus próprios embeddings de compreensão visual. Nesse processo, ao alinhar as capacidades de compreensão e geração do modelo com uma perda de reconstrução autossupervisionada, torna-se possível aproveitar as informações visuais de forma mais eficaz. O RecA pode ser aplicado a várias arquiteturas, incluindo UMMs autoregressivos, masked-autoregressive e baseados em diffusion, e apresenta melhorias consistentes na fidelidade de geração e edição.

Nos resultados experimentais, após a aplicação do RecA, o desempenho de geração de imagens no GenEval melhorou de 0.73 para 0.90, e no DPGBench de 80.93 para 88.15. Além disso, em benchmarks de edição de imagens, também houve aumento de 3.38 para 3.75 no ImgEdit e de 6.94 para 7.25 no GEdit. Esses resultados mostram que o RecA supera modelos open source existentes muito maiores e tem potencial para ser amplamente aplicado a diferentes arquiteturas de UMM.

O RecA apresenta uma forma eficaz de alinhar as capacidades de compreensão e geração de UMMs, com potencial para se consolidar como uma estratégia de pós-treinamento eficiente em termos de recursos. Em pesquisas futuras, será importante ampliar o escopo de aplicação do RecA e avaliar seu desempenho em outras tarefas multimodais. Espera-se que esse tipo de estudo contribua para o avanço dos modelos multimodais.

Resumo do artigo (Abstract)

Unified Multimodal Models (UMMs) integram compreensão visual e geração dentro de uma única arquitetura. No entanto, os métodos convencionais de treinamento geralmente dependem de pares (ou sequências) imagem-texto, cujas legendas costumam ser esparsas e deixam passar detalhes visuais refinados — mesmo quando usam centenas de palavras para descrever uma imagem simples. Apresentamos o Reconstruction Alignment (RecA), um método de pós-treinamento eficiente em recursos que aproveita embeddings do encoder de compreensão visual como "text prompts" densos, fornecendo supervisão rica sem usar legendas. Mais especificamente, o RecA condiciona um UMM aos seus próprios embeddings de compreensão visual e o otimiza para reconstruir a imagem de entrada com uma perda de reconstrução autossupervisionada, realinhando assim compreensão e geração. Apesar de sua simplicidade, o RecA tem ampla aplicabilidade em UMMs autoregressivos, masked-autoregressive e baseados em diffusion, melhorando de forma consistente a fidelidade de geração e edição. Com apenas 27 horas de GPU, o pós-treinamento com RecA melhora substancialmente o desempenho de geração de imagens no GenEval (0.73$\rightarrow$0.90) e no DPGBench (80.93$\rightarrow$88.15), além de elevar o desempenho em benchmarks de edição (ImgEdit 3.38$\rightarrow$3.75, GEdit 6.94$\rightarrow$7.25). Em particular, o RecA supera modelos open source muito maiores e se aplica amplamente a diversas arquiteturas de UMM, estabelecendo-se como uma estratégia de alinhamento de pós-treinamento eficiente e geral para UMMs.

> Unified multimodal models (UMMs) unify visual understanding and generation within a single architecture. However, conventional training relies on image-text pairs (or sequences) whose captions are typically sparse and miss fine-grained visual details--even when they use hundreds of words to describe a simple image. We introduce Reconstruction Alignment (RecA), a resource-efficient post-training method that leverages visual understanding encoder embeddings as dense "text prompts," providing rich supervision without captions. Concretely, RecA conditions a UMM on its own visual understanding embeddings and optimizes it to reconstruct the input image with a self-supervised reconstruction loss, thereby realigning understanding and generation. Despite its simplicity, RecA is broadly applicable: across autoregressive, masked-autoregressive, and diffusion-based UMMs, it consistently improves generation and editing fidelity. With only 27 GPU-hours, post-training with RecA substantially improves image generation performance on GenEval (0.73$\rightarrow$0.90) and DPGBench (80.93$\rightarrow$88.15), while also boosting editing benchmarks (ImgEdit 3.38$\rightarrow$3.75, GEdit 6.94$\rightarrow$7.25). Notably, RecA surpasses much larger open-source models and applies broadly across diverse UMM architectures, establishing it as an efficient and general post-training alignment strategy for UMMs

Link do artigo

https://arxiv.org/abs/2509.07295


Apoiando nossos senhores da IA: redesenhando sistemas de dados para serem agent-first / Supporting Our AI Overlords: Redesigning Data Systems to be Agent-First

Introdução ao artigo

A forma como agentes de grandes modelos de linguagem (LLM) realizam manipulação e análise de dados deve trazer mudanças significativas para o futuro dos sistemas de dados. Esses agentes executam tarefas por meio de um processo de especulação agêntica (agentic speculation), no qual exploram rapidamente e apresentam soluções de acordo com a solicitação do usuário. No entanto, a ocorrência em massa e a ineficiência da especulação agêntica podem se tornar um desafio para os sistemas de dados atuais. Portanto, os sistemas de dados precisam evoluir para oferecer suporte nativo a esse tipo de carga de trabalho agêntica.

Este estudo apresenta oportunidades de pesquisa para uma nova arquitetura de sistemas de dados orientada a agentes, aproveitando as características da especulação agêntica: escala, heterogeneidade, redundância e direcionabilidade. A partir disso, explora abordagens inovadoras como novas interfaces de consulta, técnicas de processamento de consultas e armazenamentos de memória agêntica. Em particular, se os agentes se tornarem o principal mecanismo de interação com dados, isso poderá abrir caminho para ganhos de produtividade nos sistemas de dados.

Por meio de estudos de caso, foram analisadas as características das cargas de trabalho agênticas, permitindo identificar oportunidades de otimização. No primeiro estudo, foi explorado como LLMs podem melhorar a precisão ao aumentar o número de requisições usando o dataset BIRD; no segundo, foi realizada uma tarefa complexa de combinar informações de dois bancos de dados. Esses resultados mostram que a especulação agêntica tem potencial para aumentar a eficiência dos sistemas de dados.

Por fim, foram propostos um armazenamento de memória agêntica e um novo framework transacional para lidar com a redundância e a heterogeneidade que surgem na fase de exploração da especulação agêntica. Essa abordagem destaca a necessidade de redesenhar os sistemas de dados com foco em agentes e apresenta uma nova visão para pesquisas futuras.

Resumo do artigo (Abstract)

Agentes de grandes modelos de linguagem (LLM), atuando em nome de seus usuários para manipular e analisar dados, têm grande probabilidade de se tornar a carga de trabalho dominante dos sistemas de dados no futuro. Ao trabalhar com dados, os agentes empregam um processo de alta vazão de exploração e formulação de soluções para a tarefa em questão, que chamamos de especulação agêntica (agentic speculation). O enorme volume e as ineficiências da especulação agêntica podem representar desafios para os sistemas de dados atuais. Argumentamos que os sistemas de dados precisam se adaptar para oferecer suporte mais nativo a cargas de trabalho agênticas. Aproveitamos as características da especulação agêntica que identificamos — escala, heterogeneidade, redundância e direcionabilidade — para delinear várias novas oportunidades de pesquisa para uma nova arquitetura de sistemas de dados agent-first, que vão desde novas interfaces de consulta até novas técnicas de processamento de consultas e novos armazenamentos de memória agêntica.

> Large Language Model (LLM) agents, acting on their users' behalf to manipulate and analyze data, are likely to become the dominant workload for data systems in the future. When working with data, agents employ a high-throughput process of exploration and solution formulation for the given task, one we call agentic speculation. The sheer volume and inefficiencies of agentic speculation can pose challenges for present-day data systems. We argue that data systems need to adapt to more natively support agentic workloads. We take advantage of the characteristics of agentic speculation that we identify, i.e., scale, heterogeneity, redundancy, and steerability - to outline a number of new research opportunities for a new agent-first data systems architecture, ranging from new query interfaces, to new query processing techniques, to new agentic memory stores.

Link do artigo

https://arxiv.org/abs/2509.00997


AToken: tokenizer unificado para visão / AToken: A Unified Tokenizer for Vision

Apresentação do artigo

AToken é o primeiro tokenizer visual unificado a alcançar simultaneamente reconstrução de alta fidelidade e compreensão semântica em imagens, vídeos e ativos 3D. Enquanto tokenizers existentes são especializados em reconstrução ou compreensão para uma única modalidade, o AToken unifica ambas as tarefas e modalidades em um único framework ao codificar diversas entradas visuais em um espaço latente 4D compartilhado. O sistema introduz uma arquitetura puramente Transformer com embeddings posicionais rotacionais 4D para processar entradas visuais com resolução e duração temporal arbitrárias. Para garantir treinamento estável, o AToken propõe um objetivo de treinamento livre de adversarial que combina perda perceptual e perda gram-métrica, alcançando qualidade de reconstrução de ponta. Com um currículo de aprendizado progressivo, o AToken expande gradualmente de imagens únicas para vídeo e 3D, oferecendo suporte tanto a tokens latentes contínuos quanto discretos. O AToken alcança 0,21 rFID e 82,2% de acurácia no ImageNet para imagens, 3,01 rFVD e 32,6% de desempenho de busca no MSRVTT para vídeo, e 28,19 PSNR com 90,9% de acurácia de classificação para 3D. Em aplicações downstream, o AToken viabiliza tarefas de geração visual, como geração de imagens, geração de texto para vídeo e síntese de imagem para 3D, além de tarefas de compreensão, como grandes modelos de linguagem multimodais (LLM), mostrando desempenho competitivo em todos os benchmarks. Esses resultados apontam o potencial de sistemas de IA multimodais de próxima geração baseados em tokenização visual unificada.

Resumo do artigo (Abstract)

Apresentamos o AToken, o primeiro tokenizer visual unificado a alcançar tanto reconstrução de alta fidelidade quanto compreensão semântica em imagens, vídeos e ativos 3D. Ao contrário dos tokenizers existentes, especializados em reconstrução ou compreensão para uma única modalidade, o AToken integra ambas as tarefas e modalidades em um único framework ao codificar essas diversas entradas visuais em um espaço latente 4D compartilhado. Especificamente, introduzimos uma arquitetura puramente Transformer com embeddings posicionais rotacionais 4D para processar entradas visuais com resolução e duração temporal arbitrárias. Para garantir treinamento estável, introduzimos um objetivo de treinamento livre de adversarial que combina perda perceptual e perda de matriz de Gram, alcançando qualidade de reconstrução de ponta. Aproveitando um currículo de aprendizado progressivo, o AToken expande gradualmente de imagens únicas para vídeo e 3D, oferecendo suporte tanto a tokens latentes contínuos quanto discretos. O AToken alcança 0,21 rFID e 82,2% de acurácia no ImageNet para imagens, 3,01 rFVD e 32,6% de taxa de recuperação no MSRVTT para vídeo, e 28,19 PSNR com 90,9% de acurácia de classificação para 3D. Em aplicações downstream, o AToken possibilita tanto tarefas de geração visual (por exemplo, geração de imagens, geração de texto para vídeo e síntese de imagem para 3D com tokens contínuos e discretos) quanto tarefas de compreensão (por exemplo, grandes modelos de linguagem multimodais), alcançando desempenho competitivo em todos os benchmarks. Esses resultados oferecem insights sobre sistemas de IA multimodais de próxima geração construídos com base em tokenização visual unificada.

> Apresentamos o AToken, o primeiro tokenizador visual unificado que alcança tanto reconstrução de alta fidelidade quanto compreensão semântica em imagens, vídeos e ativos 3D. Diferentemente dos tokenizadores existentes, que se especializam em reconstrução ou compreensão para modalidades únicas, o AToken codifica essas diversas entradas visuais em um espaço latente 4D compartilhado, unificando ambas as tarefas e modalidades em uma única estrutura. Especificamente, introduzimos uma arquitetura puramente transformer com embeddings posicionais rotativos 4D para processar entradas visuais com resoluções arbitrárias e diferentes durações temporais. Para garantir treinamento estável, introduzimos um objetivo de treinamento sem adversarial que combina perdas perceptuais e de matriz de Gram, alcançando qualidade de reconstrução estado da arte. Ao empregar um currículo de treinamento progressivo, o AToken se expande gradualmente de imagens individuais para vídeos e 3D, e oferece suporte tanto a tokens latentes contínuos quanto discretos. O AToken atinge 0,21 rFID com 82,2% de acurácia no ImageNet para imagens, 3,01 rFVD com 32,6% de retrieval no MSRVTT para vídeos, e 28,19 PSNR com 90,9% de acurácia de classificação para 3D. Em aplicações downstream, o AToken viabiliza tanto tarefas de geração visual (por exemplo, geração de imagens com tokens contínuos e discretos, geração de texto para vídeo, síntese de imagem para 3D) quanto tarefas de compreensão (por exemplo, LLMs multimodais), alcançando desempenho competitivo em todos os benchmarks. Esses resultados esclarecem o caminho para sistemas de IA multimodais de próxima geração construídos sobre tokenização visual unificada.

Link do artigo

https://arxiv.org/abs/2509.14476


Aprimorando a inteligência agêntica geral por meio da escalabilidade de ambientes / Towards General Agentic Intelligence via Environment Scaling

Apresentação do artigo

A inteligência agêntica avançada vem se consolidando como um elemento essencial para implantar modelos de linguagem de grande escala (LLMs) de forma eficaz em aplicações do mundo real. Diversas APIs reais exigem inteligência de chamada de funções precisa e robusta, o que significa que os agentes precisam desenvolver essas capacidades por meio da interação em diferentes ambientes. Neste estudo, os autores propõem a expansão de ambientes como um passo para melhorar a inteligência agêntica geral, buscando assim resolver dois desafios principais. Primeiro, como expandir ambientes de forma principiada; segundo, como aprender de maneira eficaz as capacidades do agente por meio da interação com esses ambientes.

Para resolver esses problemas, os pesquisadores projetaram um framework escalável que constrói automaticamente ambientes heterogêneos. Esse framework se concentra em expandir sistematicamente ambientes totalmente simulados para ampliar o espaço de cenários de chamada de funções. Além disso, introduz uma estratégia de fine-tuning de agentes em duas etapas: na primeira, concede ao agente capacidades agênticas básicas; na segunda, as especializa de acordo com contextos específicos de domínio.

A metodologia de construção e expansão de ambientes proposta neste estudo inclui um pipeline sistemático que coleta mais de 30.000 APIs e induz partições e distribuições de domínio por meio da modelagem de grafos de dependência de ferramentas. Com isso, o agente consegue inicializar estados do ambiente e gerar sequências válidas ao amostrar sequências de ferramentas logicamente consistentes a partir de grafos de ferramentas específicos de domínio. Esse processo garante consistência de estado no nível de banco de dados e correspondência exata das sequências de ferramentas, melhorando significativamente a capacidade de chamada de funções do agente.

Como resultado, o modelo AgentScaler desenvolvido neste estudo melhora de forma expressiva a capacidade de chamada de funções dos agentes, e espera-se que isso represente uma contribuição importante para o avanço futuro da inteligência agêntica. Essa abordagem ajuda os agentes a operar de forma eficaz em ambientes diversos e contribui para ampliar ainda mais as possibilidades de aplicação prática da inteligência agêntica.

Resumo do artigo (Abstract)

A inteligência agêntica avançada é um pré-requisito para implantar modelos de linguagem de grande escala em aplicações do mundo real. Diversas APIs reais exigem inteligência de chamada de funções precisa e robusta, o que significa que os agentes precisam desenvolver essas capacidades por meio da interação em diferentes ambientes. A amplitude da capacidade de chamada de funções está intimamente ligada à diversidade dos ambientes nos quais o agente é treinado. Neste estudo, expandimos ambientes como uma etapa para aprimorar a inteligência agêntica geral. Isso dá origem a dois desafios principais: (i) como expandir ambientes de forma principiada; (ii) como treinar de forma eficaz as capacidades do agente a partir da experiência obtida por meio da interação com esses ambientes. Para resolver isso, projetamos um framework escalável que constrói automaticamente ambientes heterogêneos, ampliando sistematicamente o espaço de cenários de chamada de funções. Também aplicamos uma estratégia de fine-tuning de agentes em duas etapas, que primeiro concede capacidades agênticas básicas ao agente e depois as especializa para contextos específicos de domínio. Por meio de experimentos extensivos nos benchmarks de agentes tau-bench, tau2-Bench e ACEBench, demonstramos que nosso modelo treinado, AgentScaler, melhora significativamente a capacidade de chamada de funções do modelo.

> A inteligência agêntica avançada é um pré-requisito para implantar Large Language Models em aplicações práticas do mundo real. APIs diversas do mundo real exigem inteligência de chamada de função precisa e robusta, o que requer que agentes desenvolvam essas capacidades por meio de interação em ambientes variados. A amplitude da competência em chamada de função está intimamente ligada à diversidade dos ambientes nos quais os agentes são treinados. Neste trabalho, ampliamos os ambientes como um passo rumo ao avanço da inteligência agêntica geral. Isso dá origem a dois desafios centrais: (i) como escalar ambientes de maneira fundamentada, e (ii) como treinar efetivamente capacidades agênticas a partir de experiências derivadas da interação com esses ambientes. Para enfrentar isso, projetamos um framework escalável que constrói automaticamente ambientes heterogêneos totalmente simulados, ampliando de forma sistemática o espaço de cenários de chamada de função. Também adaptamos uma estratégia de fine-tuning de agentes em duas fases: primeiro, dotando os agentes de capacidades agênticas fundamentais; depois, especializando-os para contextos específicos de domínio. Experimentos extensivos nos benchmarks agênticos, tau-bench, tau2-Bench e ACEBench demonstram que nosso modelo treinado, AgentScaler, melhora significativamente a capacidade de chamada de função dos modelos.

Link do artigo

https://arxiv.org/abs/2509.13311

Leia mais

https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/


Aprendizagem em contexto é aprendizagem? / Is In-Context Learning Learning?

Apresentação do artigo

In-Context Learning (ICL) mostra a capacidade de modelos autorregressivos resolverem diversas tarefas por meio da previsão do próximo token, sem treinamento adicional. Essa abordagem levou à afirmação de que o modelo pode resolver tarefas não vistas com apenas alguns exemplos, mas há controvérsia sobre se o ICL realmente realiza aprendizagem. Este estudo argumenta que o ICL constitui aprendizagem do ponto de vista matemático, ao mesmo tempo em que enfatiza que análises empíricas são necessárias para compreender plenamente suas características.

Por meio de uma análise em larga escala, o trabalho avalia o desempenho do ICL considerando memória, pré-treinamento, mudanças de distribuição, sensibilidade ao estilo de prompt e à formulação sintática. Os resultados mostram que o ICL funciona como um paradigma de aprendizagem eficaz, mas tem limitações na capacidade de generalizar para tarefas não vistas. Em particular, à medida que o número de exemplos aumenta, a acurácia se torna menos sensível à distribuição dos exemplos, ao modelo ou ao estilo do prompt, e passa a mostrar uma tendência de inferir padrões a partir da regularidade do prompt. Isso causou sensibilidade distribucional especialmente em certos estilos de prompt, como Chain-of-Thought.

As diferenças de acurácia em tarefas formalmente semelhantes sugerem que a codificação ad hoc dos modelos autorregressivos não é um mecanismo de aprendizagem robusto, indicando uma generalização de uso geral limitada. Este estudo mostra que o ICL funciona como mecanismo de aprendizagem, mas também revela claramente seus limites e comportamentos, além de indicar que o desempenho de LLMs (grandes modelos de linguagem) pode variar conforme a distribuição dos dados. Esses resultados representam uma contribuição importante para explorar o potencial do ICL e devem ajudar pesquisas futuras a compreender mais profundamente suas características e limitações.

Resumo do artigo (Abstract)

A aprendizagem em contexto (In-Context Learning, ICL) permite que alguns modelos autorregressivos resolvam tarefas por meio da previsão do próximo token, sem necessidade de treinamento adicional. Isso levou à afirmação de que esses modelos podem resolver (aprender) tarefas não vistas usando apenas alguns exemplos (shots) no prompt. No entanto, dedução nem sempre implica aprendizagem, já que o ICL não codifica explicitamente uma observação dada. Em vez disso, os modelos dependem de seu conhecimento prévio e dos exemplos fornecidos, quando houver. Argumentamos que, matematicamente, o ICL de fato constitui aprendizagem, mas sua caracterização completa exige trabalho empírico. Em seguida, realizamos uma análise em larga escala do ICL removendo ou controlando fatores como memorização, pré-treinamento, mudanças de distribuição, estilo de prompting e formulação textual. Constatamos que o ICL é um paradigma de aprendizagem eficaz, mas limitado em sua capacidade de aprender e generalizar para tarefas não vistas. Observamos que, no limite em que os exemplos se tornam mais numerosos, a acurácia se torna insensível à distribuição dos exemplos, ao modelo, ao estilo do prompt e às características linguísticas da entrada. Em vez disso, ele deduz padrões a partir de regularidades no prompt, o que leva à sensibilidade distribucional, especialmente em estilos de prompting como chain-of-thought. Dadas as acurácias variadas em tarefas formalmente semelhantes, concluímos que a codificação ad hoc da autorregressão não é um mecanismo robusto e sugere generalização de propósito geral limitada.

> In-context learning (ICL) allows some autoregressive models to solve tasks via next-token prediction and without needing further training. This has led to claims about these model's ability to solve (learn) unseen tasks with only a few shots (exemplars) in the prompt. However, deduction does not always imply learning, as ICL does not explicitly encode a given observation. Instead, the models rely on their prior knowledge and the exemplars given, if any. We argue that, mathematically, ICL does constitute learning, but its full characterisation requires empirical work. We then carry out a large-scale analysis of ICL ablating out or accounting for memorisation, pretraining, distributional shifts, and prompting style and phrasing. We find that ICL is an effective learning paradigm, but limited in its ability to learn and generalise to unseen tasks. We note that, in the limit where exemplars become more numerous, accuracy is insensitive to exemplar distribution, model, prompt style, and the input's linguistic features. Instead, it deduces patterns from regularities in the prompt, which leads to distributional sensitivity, especially in prompting styles such as chain-of-thought. Given the varied accuracies on formally similar tasks, we conclude that autoregression's ad-hoc encoding is not a robust mechanism, and suggests limited all-purpose generalisability.

Link do artigo

https://arxiv.org/abs/2509.10414


DeepDive: avanço de agentes de busca profunda com grafos de conhecimento e RL multi-turn / DeepDive: Advancing Deep Search Agents with Knowledge Graphs and Multi-Turn RL

Introdução ao artigo

O DeepDive propõe uma abordagem inovadora que utiliza grafos de conhecimento (Knowledge Graphs, KG) e aprendizado por reforço multi-turn (Multi-Turn Reinforcement Learning, RL) para transformar grandes modelos de linguagem (LLMs) em agentes de busca profunda. Os LLMs existentes apresentam desempenho fraco quando integrados a ferramentas de navegação, devido à falta de capacidade de raciocínio de longo horizonte e à escassez de dados supervisionados suficientes para resolver perguntas complexas. Para enfrentar esses problemas, o DeepDive introduz duas técnicas principais.

Primeiro, foi desenvolvido um método que usa KG para sintetizar automaticamente perguntas complexas e difíceis de encontrar. O KG representa entidades e suas relações de forma estruturada, oferecendo um ambiente em que o agente pode realizar raciocínio de longo horizonte. Nesse processo, a complexidade e a ambiguidade das perguntas são ampliadas por meio de random walk, e LLMs são usados para gerar pares desafiadores de pergunta e resposta. Essa síntese automatizada de dados fornece dados de alta qualidade necessários para treinar agentes de busca profunda.

Segundo, o DeepDive aplica RL multi-turn de ponta a ponta para melhorar a capacidade de raciocínio de longo horizonte dos LLMs. Esse método inclui uma estrutura rigorosa de recompensas que ajuda o agente a aprender, passo a passo, como buscar, o que buscar e quando encerrar a busca. O RL multi-turn permite que o agente chegue à resposta final por meio de raciocínio iterativo e chamadas de ferramentas, contribuindo significativamente para o aprimoramento da capacidade de busca profunda.

Os resultados experimentais do DeepDive alcançaram um novo resultado competitivo open source no BrowseComp, superando vários modelos existentes. Este estudo traz uma contribuição importante para melhorar o desempenho de agentes de busca profunda e, com o dataset e o código disponibilizados publicamente, aumenta a reprodutibilidade da pesquisa e fornece uma base para trabalhos futuros. O DeepDive apresenta uma nova abordagem para resolver problemas complexos de recuperação de informação e contribui para ampliar ainda mais as possibilidades de uso dos LLMs.

Resumo do artigo (Abstract)

Adicionar ferramentas de navegação a grandes modelos de linguagem (LLMs) aumenta substancialmente seu potencial como agentes de busca profunda para resolver tarefas complexas do mundo real. No entanto, LLMs abertos ainda apresentam baixo desempenho nesses cenários devido à capacidade limitada de raciocínio de longo horizonte com ferramentas de navegação e à falta de dados supervisionados suficientemente difíceis. Para enfrentar esses desafios, apresentamos o DeepDive para avançar os agentes de busca profunda. Primeiro, propomos uma estratégia para sintetizar automaticamente perguntas complexas, difíceis e difíceis de encontrar a partir de grafos de conhecimento abertos. Segundo, aplicamos aprendizado por reforço (RL) multi-turn de ponta a ponta para fortalecer o raciocínio de longo horizonte dos LLMs com busca profunda. Os experimentos mostram que o DeepDive-32B alcança um novo resultado competitivo open source no BrowseComp, superando WebSailor, DeepSeek-R1-Browse e Search-o1. Demonstramos que o treinamento com RL multi-turn melhora a capacidade de busca profunda e contribui significativamente para as melhorias de desempenho em múltiplos benchmarks. Também observamos que o DeepDive possibilita escalabilidade de chamadas de ferramentas em tempo de teste e amostragem paralela. Todos os datasets, modelos e códigos estão disponíveis publicamente em https://github.com/THUDM/DeepDive.

Augmenting large language models (LLMs) with browsing tools substantially improves their potential as deep search agents to solve complex, real-world tasks. Yet, open LLMs still perform poorly in such settings due to limited long-horizon reasoning capacity with browsing tools and the lack of sufficiently difficult supervised data. To address these challenges, we present DeepDive to advance deep search agents. First, we propose a strategy to automatically synthesize complex, difficult, and hard-to-find questions from open knowledge graphs. Second, we apply end-to-end multi-turn reinforcement learning (RL) to enhance LLMs' long-horizon reasoning with deep search. Experiments show that DeepDive-32B achieves a new open-source competitive result on BrowseComp, outperforming WebSailor, DeepSeek-R1-Browse, and Search-o1. We demonstrate that multi-turn RL training improves deep search ability and significantly contributes to the performance improvements across multiple benchmarks. We observe that DeepDive enables test-time scaling of tool calls and parallel sampling. All datasets, models, and code are publicly available at https://github.com/THUDM/DeepDive.

Link do artigo

https://arxiv.org/abs/2509.10446

Leia mais

https://github.com/THUDM/DeepDive


Investigação sobre Video Temporal Grounding com grandes modelos multimodais de linguagem / A Survey on Video Temporal Grounding with Multimodal Large Language Model

Introdução ao artigo

A área de Video Temporal Grounding (VTG) desempenha um papel importante na identificação e compreensão de eventos temporais específicos em vídeos, e seu desempenho tem melhorado consideravelmente com os avanços recentes dos grandes modelos multimodais de linguagem (Multimodal Large Language Models, MLLMs). Com base em suas excelentes capacidades de compreensão e raciocínio multimodal, os MLLMs vêm demonstrando resultados que superam abordagens tradicionais de fine-tuning em métodos de VTG. Este estudo apresenta uma análise abrangente dos VTG-MLLMs, examinando de forma sistemática as tendências atuais de pesquisa na área e organizando a discussão em três dimensões: o papel funcional dos MLLMs, os paradigmas de aprendizado e as técnicas de processamento de características de vídeo.

Os MLLMs desempenham dois papéis principais em VTG. Primeiro, atuam como facilitadores, apoiando a interação entre vídeo e linguagem; segundo, funcionam como executores, realizando efetivamente a tarefa de VTG. Por meio desses papéis, diversos modelos vêm maximizando o desempenho em tarefas de VTG. Os paradigmas de aprendizado se dividem em pré-treinamento, fine-tuning e sem treinamento, e cada um deles exerce impacto importante no desempenho e na capacidade de generalização dos modelos. Em especial, o paradigma sem treinamento sugere a possibilidade de obter desempenho eficaz mesmo com poucos dados.

As técnicas de processamento de características de vídeo também têm impacto significativo no desempenho dos VTG-MLLMs. Metodologias para tratar de forma eficaz características visuais e temporais são essenciais para determinar as representações espaciais e temporais do vídeo. Além disso, benchmarks e protocolos de avaliação desempenham papel importante tanto na medição do desempenho dos VTG-MLLMs quanto na verificação da capacidade de generalização dos modelos.

Por fim, este estudo identifica as limitações atuais dos VTG-MLLMs e propõe direções para pesquisas futuras. A falta de diversidade nos datasets, a complexidade dos modelos e as dificuldades de processamento em tempo real continuam sendo desafios centrais a serem resolvidos. Pesquisas para superar essas limitações precisarão se concentrar no desenvolvimento de novos datasets e na otimização dos modelos. Este artigo oferece uma revisão abrangente dos VTG-MLLMs e fornece informações úteis para pesquisadores da área.

Resumo do artigo (Abstract)

Os avanços recentes em video temporal grounding (VTG) aprimoraram significativamente a compreensão refinada de vídeo, impulsionados principalmente por multimodal large language models (MLLMs). Com capacidades superiores de compreensão e raciocínio multimodais, as abordagens de VTG baseadas em MLLMs (VTG-MLLMs) estão gradualmente superando os métodos tradicionais de fine-tuning. Elas não apenas alcançam desempenho competitivo, mas também se destacam na generalização em cenários zero-shot, multi-task e multi-domain. Apesar da ampla quantidade de surveys sobre compreensão geral de vídeo-linguagem, ainda são escassas as revisões abrangentes que tratam especificamente de VTG-MLLMs. Para preencher essa lacuna, este survey examina sistematicamente a pesquisa atual sobre VTG-MLLMs por meio de uma taxonomia tridimensional: 1) os papéis funcionais dos MLLMs, destacando sua importância arquitetural; 2) paradigmas de treinamento, analisando estratégias para raciocínio temporal e adaptação de tarefas; e 3) técnicas de processamento de características de vídeo, que determinam a eficácia da representação espaço-temporal. Além disso, discutimos datasets de benchmark, protocolos de avaliação e resumimos achados empíricos. Por fim, identificamos limitações existentes e propomos direções promissoras de pesquisa. Para recursos adicionais e mais detalhes, recomenda-se que os leitores visitem nosso repositório em https://github.com/ki-lw/Awesome-MLLMs-for-Video-Temporal-Grounding.

> Recent advances in video temporal grounding (VTG) have significantly enhanced fine-grained video understanding, primarily driven by multimodal large language models (MLLMs). With superior multimodal comprehension and reasoning abilities, VTG approaches based on MLLMs (VTG-MLLMs) are gradually surpassing traditional fine-tuned methods. They not only achieve competitive performance but also excel in generalization across zero-shot, multi-task, and multi-domain settings. Despite extensive surveys on general video-language understanding, comprehensive reviews specifically addressing VTG-MLLMs remain scarce. To fill this gap, this survey systematically examines current research on VTG-MLLMs through a three-dimensional taxonomy: 1) the functional roles of MLLMs, highlighting their architectural significance; 2) training paradigms, analyzing strategies for temporal reasoning and task adaptation; and 3) video feature processing techniques, which determine spatiotemporal representation effectiveness. We further discuss benchmark datasets, evaluation protocols, and summarize empirical findings. Finally, we identify existing limitations and propose promising research directions. For additional resources and details, readers are encouraged to visit our repository at https://github.com/ki-lw/Awesome-MLLMs-for-Video-Temporal-Grounding.

Link do artigo

https://arxiv.org/abs/2508.10922

Leia mais

https://github.com/ki-lw/Awesome-MLLMs-for-Video-Temporal-Grounding


Escalando agentes por meio de pré-treinamento contínuo / Scaling Agents via Continual Pre-training

Apresentação do artigo

Large language models (LLMs) evoluíram para sistemas agentes capazes de uso autônomo de ferramentas e de realizar raciocínio em múltiplas etapas para resolver problemas complexos. No entanto, abordagens de pós-treinamento baseadas em modelos fundacionais de propósito geral têm apresentado desempenho consistentemente fraco em tarefas de agentes. A causa raiz desse problema é a ausência de um modelo fundacional de agente robusto, o que gera uma tensão de otimização durante o processo de pós-treinamento, já que é necessário aprender diversos comportamentos de agentes ao mesmo tempo em que se ajusta o modelo às demonstrações de especialistas. Para resolver isso, propomos pela primeira vez a integração do Agentic Continual Pre-training (Agentic CPT) a um pipeline de treinamento de agentes de pesquisa profunda. Com base nessa abordagem, desenvolvemos o modelo de agente de pesquisa profunda AgentFounder. O AgentFounder-30B foi avaliado em 10 benchmarks, alcançou desempenho state-of-the-art e demonstrou forte capacidade de uso de ferramentas, mantendo especialmente 39,9% no BrowseComp-en, 43,3% no BrowseComp-zh e 31,5% de Pass@1 no HLE.

Resumo(Abstract)

Large language models (LLMs) evoluíram para sistemas agentes capazes de uso autônomo de ferramentas e raciocínio em múltiplas etapas para resolver problemas complexos. No entanto, abordagens de pós-treinamento baseadas em modelos fundacionais de propósito geral apresentam desempenho consistentemente fraco em tarefas de agentes, especialmente em implementações open source. Identificamos a causa raiz: a ausência de um modelo fundacional de agente robusto cria uma tensão fundamental de otimização durante o pós-treinamento, já que o modelo precisa aprender simultaneamente diversos comportamentos de agentes enquanto os alinha às demonstrações de especialistas. Para resolver isso, propomos pela primeira vez integrar o Agentic Continual Pre-training (Agentic CPT) ao pipeline de treinamento de agentes de pesquisa profunda para construir um modelo fundacional de agente robusto. Com base nessa abordagem, desenvolvemos o modelo de agente de pesquisa profunda AgentFounder. Avaliamos o AgentFounder-30B em 10 benchmarks, e ele alcançou desempenho state-of-the-art ao mesmo tempo em que manteve forte capacidade de uso de ferramentas, registrando em especial 39,9% no BrowseComp-en, 43,3% no BrowseComp-zh e Pass@1 de 31,5% no HLE.

Large language models (LLMs) evoluíram para sistemas agênticos capazes de usar ferramentas de forma autônoma e realizar raciocínio em múltiplas etapas para resolver problemas complexos. No entanto, abordagens de pós-treinamento construídas sobre modelos fundacionais de propósito geral apresentam desempenho consistentemente inferior em tarefas agênticas, particularmente em implementações open source. Identificamos a causa raiz: a ausência de modelos fundacionais agênticos robustos força os modelos, durante o pós-treinamento, a aprender simultaneamente comportamentos agênticos diversos enquanto os alinham a demonstrações de especialistas, criando assim tensões fundamentais de otimização. Para isso, somos os primeiros a propor a incorporação de Agentic Continual Pre-training (Agentic CPT) ao pipeline de treinamento de agentes de pesquisa profunda para construir modelos fundacionais agênticos poderosos. Com base nessa abordagem, desenvolvemos um modelo de agente de pesquisa profunda chamado AgentFounder. Avaliamos nosso AgentFounder-30B em 10 benchmarks e alcançamos desempenho estado da arte, ao mesmo tempo em que mantemos forte capacidade de uso de ferramentas, com destaque para 39,9% no BrowseComp-en, 43,3% no BrowseComp-zh e 31,5% de Pass@1 no HLE.

Link do artigo

https://arxiv.org/abs/2509.13310

Leia mais

https://tongyi-agent.github.io/blog/introducing-tongyi-deep-research/


Leis de escala para modelos de linguagem com privacidade diferencial / Scaling Laws for Differentially Private Language Models

Introdução ao artigo

A pesquisa sobre leis de escala para o treinamento de grandes modelos de linguagem (Large Language Model, LLM) com privacidade diferencial (Differential Privacy, DP) representa um avanço importante na área moderna de inteligência artificial (AI). O principal objetivo deste estudo é estabelecer leis de escala que modelem com precisão a complexidade do treinamento de DP LLMs, esclarecendo os trade-offs entre computação, privacidade e utilidade, além de propor configurações de treinamento ideais. Nas abordagens tradicionais de treinamento de LLMs, as leis de escala desempenham um papel importante ao prever ganhos de desempenho e orientar a escolha de hiperparâmetros, mas a dinâmica do treinamento com DP é um tanto diferente, e por isso suas leis de escala ainda não foram suficientemente compreendidas.

Neste estudo, as leis de escala para o treinamento de DP LLMs foram estabelecidas por meio do processo de ajuste de uma função de estimativa de perda, L(M,T,\\bar{\\sigma}). Aqui, M representa o número de parâmetros do modelo, T o número de iterações de treinamento, e \\bar{\\sigma} a proporção de lote com ruído, sendo essa função ajustada por interpolação linear. Implementada com scipy.interpolate.RegularGridInterpolator do Python, essa função é definida levando em conta parâmetros que variam naturalmente no espaço logarítmico. Essa abordagem contribui para a compreensão da dinâmica complexa do treinamento de DP LLMs e produz resultados bem definidos dentro do escopo das configurações experimentais.

Além disso, o estudo apresentou, por meio da fórmula da função ajustada e de detalhes de implementação, um método para corresponder com precisão aos dados suaves nos pontos de avaliação e também aproximar os valores intermediários. Com isso, fornece um material de base importante para compreender as leis de escala do treinamento de DP LLMs, e pesquisas futuras precisarão conduzir experimentos com diversas arquiteturas de DP LLMs com base nas leis de escala propostas, além de desenvolver ainda mais o modelo teórico.

Em conclusão, ao estabelecer leis de escala para o treinamento de grandes modelos de linguagem com privacidade diferencial, este estudo ajudará a compreender a complexidade do treinamento de DP LLMs e fornecerá diretrizes importantes para o treinamento e a otimização futuros de LLMs. Espera-se que essas descobertas contribuam para ampliar a aplicabilidade prática de DP LLMs.

Resumo do artigo (Abstract)

As leis de escala surgiram como componentes importantes do treinamento de grandes modelos de linguagem (LLMs), pois podem prever ganhos de desempenho por meio da escala e fornecer orientação sobre escolhas importantes de hiperparâmetros que, de outra forma, seriam custosas. Os LLMs também dependem de grandes conjuntos de dados de treinamento de alta qualidade, como aqueles obtidos a partir de dados de usuários (por vezes sensíveis). Treinar modelos com esses dados sensíveis de usuários exige proteções cuidadosas de privacidade, como differential privacy (DP). No entanto, a dinâmica do treinamento com DP é significativamente diferente e, consequentemente, suas leis de escala ainda não são totalmente compreendidas. Neste trabalho, estabelecemos leis de escala que modelam com precisão as complexidades do treinamento de DP LLMs, fornecendo um panorama completo dos trade-offs entre computação, privacidade e utilidade, bem como das configurações ideais de treinamento em muitos cenários.

Scaling laws have emerged as important components of large language model (LLM) training as they can predict performance gains through scale, and provide guidance on important hyper-parameter choices that would otherwise be expensive. LLMs also rely on large, high-quality training datasets, like those sourced from (sometimes sensitive) user data. Training models on this sensitive user data requires careful privacy protections like differential privacy (DP). However, the dynamics of DP training are significantly different, and consequently their scaling laws are not yet fully understood. In this work, we establish scaling laws that accurately model the intricacies of DP LLM training, providing a complete picture of the compute-privacy-utility tradeoffs and the optimal training configurations in many settings.

Link do artigo

https://arxiv.org/abs/2501.18914

Leia mais

https://services.google.com/fh/files/blogs/vaultgemma_tech_report.pdf

https://huggingface.co/google/vaultgemma-1b

https://research.google/blog/…

https://discuss.pytorch.kr/t/vaultgemma-llm-feat-differential-privacy/…

https://discuss.pytorch.kr/t/vaultgemma-llm-feat-differential-privacy/…


R-Zero: LLM de raciocínio que evolui por conta própria a partir de dados zero / R-Zero: Self-Evolving Reasoning LLM from Zero Data

Introdução ao artigo

Os grandes modelos de linguagem (LLMs) autoevolutivos oferecem um caminho escalável rumo à superinteligência ao gerar e aprender com experiências de forma autônoma. Os métodos de treinamento existentes dependem de curadoria humana em larga escala e de rótulos, o que limita o avanço dos sistemas de IA. Para superar isso, é proposto o R-Zero, um framework totalmente autônomo que parte de um LLM base e inicializa dois modelos independentes, chamados Challenger e Solver. Esses modelos são otimizados por meio da interação mútua, e o R-Zero gera um currículo de autoaperfeiçoamento orientado a objetivos sem tarefas nem rótulos preexistentes, melhorando significativamente a capacidade de raciocínio de diversos LLMs.

Resumo do artigo (Abstract)

Grandes modelos de linguagem (LLMs) autoevolutivos oferecem um caminho escalável rumo à superinteligência ao gerar, refinar e aprender com suas próprias experiências de forma autônoma. No entanto, os métodos existentes para treinar esses modelos ainda dependem fortemente de vastas tarefas e rótulos curados por humanos, normalmente por meio de fine-tuning ou reinforcement learning, o que cria um gargalo fundamental para levar sistemas de IA a capacidades além da inteligência humana. Para superar essa limitação, apresentamos o R-Zero, um framework totalmente autônomo que gera seus próprios dados de treinamento do zero. Partindo de um único LLM base, o R-Zero inicializa dois modelos independentes com papéis distintos: Challenger e Solver. Esses modelos são otimizados separadamente e coevoluem por meio da interação: o Challenger é recompensado por propor tarefas próximas ao limite da capacidade do Solver, e o Solver é recompensado por resolver tarefas cada vez mais desafiadoras propostas pelo Challenger. Esse processo produz um currículo direcionado e autoaperfeiçoável sem quaisquer tarefas e rótulos preexistentes. Empiricamente, o R-Zero melhora substancialmente a capacidade de raciocínio em diferentes LLMs de base, por exemplo, elevando o Qwen3-4B-Base em +6.49 em benchmarks de raciocínio matemático e em +7.54 em benchmarks de raciocínio de domínio geral.

Self-evolving Large Language Models (LLMs) offer a scalable path toward super-intelligence by autonomously generating, refining, and learning from their own experiences. However, existing methods for training such models still rely heavily on vast human-curated tasks and labels, typically via fine-tuning or reinforcement learning, which poses a fundamental bottleneck to advancing AI systems toward capabilities beyond human intelligence. To overcome this limitation, we introduce R-Zero, a fully autonomous framework that generates its own training data from scratch. Starting from a single base LLM, R-Zero initializes two independent models with distinct roles, a Challenger and a Solver. These models are optimized separately and co-evolve through interaction: the Challenger is rewarded for proposing tasks near the edge of the Solver capability, and the Solver is rewarded for solving increasingly challenging tasks posed by the Challenger. This process yields a targeted, self-improving curriculum without any pre-existing tasks and labels. Empirically, R-Zero substantially improves reasoning capability across different backbone LLMs, e.g., boosting the Qwen3-4B-Base by +6.49 on math-reasoning benchmarks and +7.54 on general-domain reasoning benchmarks.

Link do artigo

https://arxiv.org/abs/2508.05004


Este texto organizado pela 🔥comunidade de usuários do PyTorch na Coreia🇰🇷 foi útil para você? Se se cadastrar como membro, enviaremos os principais textos por e-mail💌! (O padrão é Weekly, mas também é possível mudar para Daily.)

🎁 Se você clicar em curtir❤️ logo abaixo↘️, isso ajuda muito na publicação das notícias~ 🤗


Este texto foi organizado com base em um conteúdo resumido por um modelo GPT, portanto pode haver trechos resumidos de forma diferente do conteúdo ou da intenção do texto original. Se o tema for do seu interesse, consulte também o texto original! Se, durante a leitura, você encontrar algo estranho ou incorreto, pedimos que nos avise nos comentários. 🤗

⚠️Publicidade⚠️: Este texto organizado pela 🔥comunidade de usuários do PyTorch na Coreia🇰🇷 foi útil para você? Se se cadastrar como membro, enviaremos os principais textos por e-mail💌! (O padrão é Weekly, mas também é possível mudar para Daily.)

Ainda não há comentários.

Ainda não há comentários.