ML para acompanhar nesta semana

(discuss.pytorch.kr)

7 pontos por ninebow 2025-10-01 | Ainda não há comentários. | Compartilhar no WhatsApp

[2025/09/22 ~ 28] Coletânea de artigos de AI/ML para acompanhar nesta semana

PyTorchKR🔥🇰🇷 🤔💭

1️⃣ Avanços dos agentes de AI: pesquisas recentes vêm explorando maneiras de transformar artigos científicos em agentes de AI. Por exemplo, o Paper2Agent converte resultados de pesquisa em sistemas ativos para que os usuários possam aproveitá-los com mais facilidade. Essa abordagem promove a disseminação e a reutilização dos resultados de pesquisa, além de apresentar um novo paradigma em que a AI pode atuar como assistente de pesquisa.

2️⃣ Integração entre pensamento paralelo e aprendizado por reforço: estudos como Parallel-R1 e ParaThinker propõem maneiras de usar pensamento paralelo para aprimorar a capacidade de raciocínio de grandes modelos de linguagem (LLMs). Eles melhoram o desempenho ao explorar simultaneamente diferentes trajetórias de raciocínio necessárias para resolver problemas complexos por meio de aprendizado por reforço (RL). Essa abordagem tem contribuído para alcançar maior precisão em comparação com os modelos tradicionais de raciocínio sequencial.

3️⃣ Integração entre recuperação e estruturação de informação: pesquisas como Retrieval And Structuring (RAS) Augmented Generation investigam formas de integrar recuperação dinâmica de informação e representações estruturadas de conhecimento para superar as limitações dos LLMs. Essa abordagem contribui para melhorar o desempenho dos LLMs ao transformar texto não estruturado em formatos organizados e ao explorar diversos mecanismos de acesso a conhecimento externo.

Paper2Agent: Reimaginando artigos científicos como agentes de AI interativos e confiáveis / Paper2Agent: Reimagining Research Papers As Interactive and Reliable AI Agents

Introdução ao artigo

Paper2Agent é um framework automatizado que converte artigos científicos em agentes de inteligência artificial (AI) interativos, apresentando uma abordagem inovadora para acelerar o uso e a disseminação de resultados de pesquisa. Artigos científicos tradicionais exigem um esforço considerável dos leitores para compreender e aplicar seu conteúdo, o que se torna uma barreira para a reutilização e a propagação dos resultados. Para resolver esse problema, o Paper2Agent analisa sistematicamente o artigo e a base de código associada, usando múltiplos agentes para construir um servidor do Model Context Protocol (MCP). Nesse processo, ele melhora e fortalece o MCP por meio de testes iterativos, criando ao final um agente de AI capaz de executar consultas científicas complexas em linguagem natural.

Esse framework foi usado para desenvolver agentes que realizam interpretação de variantes genômicas e análise de célula única por meio de metodologias diversas, como AlphaGenome, ScanPy e TISSUE. Esses agentes não apenas conseguem reproduzir os resultados dos artigos originais, como também fornecem respostas precisas para novas consultas dos usuários. Ao transformar artigos científicos estáticos em agentes de AI dinâmicos e interativos, o Paper2Agent apresenta um novo paradigma para a disseminação do conhecimento e estabelece a base para um ecossistema de AI co-cientistas.

Este estudo transforma de forma inovadora o modo de comunicação científica e contribui para converter resultados de pesquisa de documentos simples em sistemas ativos baseados em conhecimento. O Paper2Agent permite que pesquisadores apliquem métodos de pesquisa com facilidade ao interagir com os agentes em linguagem natural, sem precisar dominar ecossistemas de software complexos. Essa abordagem desempenha um papel importante ao ampliar a acessibilidade dos resultados de pesquisa, promover a democratização de metodologias avançadas e acelerar a velocidade de aplicação prática da pesquisa.

Como resultado, o Paper2Agent tende a se consolidar como uma plataforma inovadora que maximiza a utilidade de artigos científicos e viabiliza uma disseminação interativa e colaborativa do conhecimento científico.

Resumo do artigo (Abstract)

Apresentamos o Paper2Agent, um framework automatizado que converte artigos científicos em agentes de AI. O Paper2Agent transforma resultados de pesquisa de artefatos passivos em sistemas ativos que podem acelerar o uso posterior, a adoção e a descoberta. Artigos científicos convencionais exigem que os leitores invistam um esforço substancial para compreender e adaptar o código, os dados e os métodos de um artigo ao seu próprio trabalho, criando barreiras para disseminação e reutilização. O Paper2Agent enfrenta esse desafio convertendo automaticamente um artigo em um agente de AI que atua como um assistente de pesquisa bem informado. O sistema analisa sistematicamente o artigo e a base de código associada usando múltiplos agentes para construir um servidor do Model Context Protocol (MCP) e, em seguida, gera e executa testes iterativamente para refinar e tornar mais robusto o MCP resultante. Esses MCPs de artigos podem então ser conectados de forma flexível a um agente de chat (por exemplo, Claude Code) para executar consultas científicas complexas em linguagem natural, ao mesmo tempo em que invocam ferramentas e fluxos de trabalho do artigo original. Demonstramos a eficácia do Paper2Agent na criação de agentes de artigos confiáveis e capazes por meio de estudos de caso aprofundados. O Paper2Agent criou um agente que utiliza AlphaGenome para interpretar variantes genômicas e agentes baseados em ScanPy e TISSUE para realizar análises de transcriptômica espacial e de célula única. Validamos que esses agentes de artigos conseguem reproduzir os resultados do artigo original e executar corretamente novas consultas de usuários. Ao transformar artigos estáticos em agentes de AI dinâmicos e interativos, o Paper2Agent introduz um novo paradigma para a disseminação do conhecimento e uma base para o ecossistema colaborativo de AI co-cientistas.
> We introduce Paper2Agent, an automated framework that converts research papers into AI agents. Paper2Agent transforms research output from passive artifacts into active systems that can accelerate downstream use, adoption, and discovery. Conventional research papers require readers to invest substantial effort to understand and adapt a paper's code, data, and methods to their own work, creating barriers to dissemination and reuse. Paper2Agent addresses this challenge by automatically converting a paper into an AI agent that acts as a knowledgeable research assistant. It systematically analyzes the paper and the associated codebase using multiple agents to construct a Model Context Protocol (MCP) server, then iteratively generates and runs tests to refine and robustify the resulting MCP. These paper MCPs can then be flexibly connected to a chat agent (e.g. Claude Code) to carry out complex scientific queries through natural language while invoking tools and workflows from the original paper. We demonstrate Paper2Agent's effectiveness in creating reliable and capable paper agents through in-depth case studies. Paper2Agent created an agent that leverages AlphaGenome to interpret genomic variants and agents based on ScanPy and TISSUE to carry out single-cell and spatial transcriptomics analyses. We validate that these paper agents can reproduce the original paper's results and can correctly carry out novel user queries. By turning static papers into dynamic, interactive AI agents, Paper2Agent introduces a new paradigm for knowledge dissemination and a foundation for the collaborative ecosystem of AI co-scientists.

Link do artigo

https://arxiv.org/abs/2509.06917

Pensamento paralelo: como aprimorar a capacidade de pensamento paralelo por meio de aprendizado por reforço / Parallel-R1: Towards Parallel Thinking via Reinforcement Learning

Apresentação do artigo

O pensamento paralelo é uma abordagem inovadora para melhorar a capacidade de raciocínio dos grandes modelos de linguagem (LLMs), explorando simultaneamente vários caminhos de raciocínio. No entanto, os métodos existentes de aprendizado supervisionado (Supervised Fine-Tuning, SFT) dependem de dados sintéticos, o que faz com que o modelo fique restrito a um aprendizado de mera imitação, limitando exploração e generalização. Para resolver esse problema, foi proposto o Parallel-R1, o primeiro framework de aprendizado por reforço (Reinforcement Learning, RL) que viabiliza comportamentos de pensamento paralelo para a resolução de problemas complexos do mundo real.

O Parallel-R1 adota um processo de treinamento em duas etapas com um currículo progressivo: primeiro aprende problemas mais fáceis e, em seguida, por meio de RL, explora e generaliza a capacidade de pensamento paralelo em problemas mais difíceis. Nesse processo, o modelo tende a usar o pensamento paralelo como estratégia de exploração no estágio inicial e, nas etapas posteriores, evolui para uma estratégia de verificação sob múltiplas perspectivas. Nos experimentos, o Parallel-R1 obteve um ganho de 8,4% em acurácia em relação aos modelos de pensamento sequencial existentes em vários benchmarks de matemática e, em particular, registrou uma melhora de 42,9% no benchmark AIME25.

A principal contribuição deste estudo é propor um framework de RL para pensamento paralelo, induzindo o modelo a aprender esse comportamento por conta própria. Além disso, por meio do mecanismo de exploração do pensamento paralelo, o modelo é guiado para regiões mais eficazes no espaço de políticas, desempenhando um papel estrutural que contribui para o aprendizado da política final. O Parallel-R1 pode servir como uma base importante para melhorar a capacidade de raciocínio dos LLMs e espera-se que contribua para o avanço do conceito de pensamento paralelo em pesquisas futuras.

Resumo do artigo (Abstract)

O pensamento paralelo é uma nova abordagem para melhorar a capacidade de raciocínio dos grandes modelos de linguagem (LLMs), explorando simultaneamente vários caminhos de raciocínio. No entanto, ativar essa capacidade por meio de treinamento continua sendo um desafio, e os métodos existentes dependem principalmente de fine-tuning supervisionado (SFT) sobre dados sintéticos, promovendo imitação forçada pelo professor em vez de exploração e generalização. Em contraste, propomos o \textbf{Parallel-R1}, o primeiro framework de aprendizado por reforço (RL) que viabiliza comportamentos de pensamento paralelo para tarefas complexas de raciocínio do mundo real. Nosso framework emprega um currículo progressivo que trata explicitamente o problema de cold start no treinamento de pensamento paralelo com RL. Primeiro, usamos SFT em trajetórias geradas por prompts a partir de tarefas mais fáceis para incutir a capacidade de pensamento paralelo e, depois, fazemos a transição para RL para explorar e generalizar essa habilidade em problemas mais difíceis. Os resultados experimentais em vários benchmarks de matemática, incluindo MATH, AMC23 e AIME, mostram que o Parallel-R1 injeta com sucesso o pensamento paralelo, levando a um ganho de 8,4% em acurácia em comparação com o modelo de pensamento sequencial treinado diretamente com RL em tarefas desafiadoras. Análises adicionais revelam uma mudança clara no comportamento de pensamento do modelo: em um estágio inicial, ele usa o pensamento paralelo como estratégia de exploração; em um estágio posterior, usa a mesma capacidade para verificação sob múltiplas perspectivas. Mais importante ainda, validamos o pensamento paralelo como um \textbf{andaime exploratório intermediário de treinamento}, em que essa fase exploratória temporária desbloqueia um teto de desempenho mais alto após o RL, resultando em uma melhora de 42,9% em relação à linha de base no AIME25. Nosso modelo, dados e código serão disponibilizados em código aberto em https://github.com/zhengkid/Parallel-R1.
> Parallel thinking has emerged as a novel approach for enhancing the reasoning capabilities of large language models (LLMs) by exploring multiple reasoning paths concurrently. However, activating such capabilities through training remains challenging, as existing methods predominantly rely on supervised fine-tuning (SFT) over synthetic data, which encourages teacher-forced imitation rather than exploration and generalization. Different from them, we propose \textbf{Parallel-R1}, the first reinforcement learning (RL) framework that enables parallel thinking behaviors for complex real-world reasoning tasks. Our framework employs a progressive curriculum that explicitly addresses the cold-start problem in training parallel thinking with RL. We first use SFT on prompt-generated trajectories from easier tasks to instill the parallel thinking ability, then transition to RL to explore and generalize this skill on harder problems. Experiments on various math benchmarks, including MATH, AMC23, and AIME, show that Parallel-R1 successfully instills parallel thinking, leading to 8.4% accuracy improvements over the sequential thinking model trained directly on challenging tasks with RL. Further analysis reveals a clear shift in the model's thinking behavior: at an early stage, it uses parallel thinking as an exploration strategy, while in a later stage, it uses the same capability for multi-perspective verification. Most significantly, we validate parallel thinking as a \textbf{mid-training exploration scaffold}, where this temporary exploratory phase unlocks a higher performance ceiling after RL, yielding a 42.9% improvement over the baseline on AIME25. Our model, data, and code will be open-source at https://github.com/zhengkid/Parallel-R1.

Link do artigo

https://arxiv.org/abs/2509.07980

Survey sobre geração aumentada por recuperação e estruturação com grandes modelos de linguagem / A Survey on Retrieval And Structuring Augmented Generation with Large Language Models

Apresentação do artigo

Os grandes modelos de linguagem (LLMs) trouxeram avanços revolucionários para a área de processamento de linguagem natural, mas enfrentam problemas em aplicações reais, como geração de alucinações (hallucination), conhecimento desatualizado e expertise limitada em domínios específicos. Para superar essas limitações, a abordagem de geração aumentada por recuperação e estruturação (Retrieval And Structuring, RAS) foi proposta para melhorar o desempenho dos LLMs ao integrar recuperação dinâmica de informações e representação estruturada do conhecimento. Este estudo examina diversos mecanismos de recuperação para acesso a conhecimento externo, incluindo abordagens esparsas (sparse), densas (dense) e híbridas (hybrid). Esses mecanismos de recuperação ajudam os LLMs a gerar informações mais precisas e confiáveis.

Além disso, a tecnologia de estruturação de texto, que converte texto não estruturado em representações organizadas, também desempenha um papel importante. Por meio de métodos como construção de taxonomias, classificação hierárquica e extração de informações, os LLMs aumentam sua especialização em domínios específicos e tornam possível o raciocínio em múltiplas etapas para consultas complexas. O RAS integra essas representações estruturadas aos LLMs para aprimorar a capacidade de geração de respostas por meio de métodos baseados em prompt, frameworks de raciocínio e técnicas de embedding de conhecimento.

Este estudo identifica os desafios técnicos do RAS e enfatiza a importância da eficiência de recuperação, da qualidade da estrutura e da integração do conhecimento. Também apresenta oportunidades de pesquisa futuras, como recuperação multimodal, estruturas multilíngues e sistemas interativos, com o objetivo de ampliar a aplicabilidade dos LLMs. A abordagem RAS é uma metodologia inovadora capaz de maximizar o desempenho dos LLMs e espera-se que contribua para o avanço da área de processamento de linguagem natural.

Resumo do artigo (Abstract)

Os grandes modelos de linguagem (LLMs) revolucionaram o processamento de linguagem natural com suas capacidades notáveis em geração de texto e raciocínio. No entanto, esses modelos enfrentam desafios críticos quando implantados em aplicações do mundo real, incluindo geração de alucinações, conhecimento desatualizado e especialização limitada em domínios específicos. A geração aumentada por Retrieval And Structuring (RAS) aborda essas limitações ao integrar recuperação dinâmica de informações com representações estruturadas de conhecimento. Esta survey (1) examina mecanismos de recuperação, incluindo abordagens esparsas, densas e híbridas para acessar conhecimento externo; (2) explora técnicas de estruturação de texto, como construção de taxonomias, classificação hierárquica e extração de informações, que transformam texto não estruturado em representações organizadas; e (3) investiga como essas representações estruturadas são integradas aos LLMs por meio de métodos baseados em prompt, frameworks de raciocínio e técnicas de embedding de conhecimento. Também identifica desafios técnicos em eficiência de recuperação, qualidade da estrutura e integração do conhecimento, ao mesmo tempo em que destaca oportunidades de pesquisa em recuperação multimodal, estruturas multilíngues e sistemas interativos. Esta visão abrangente fornece a pesquisadores e profissionais insights sobre métodos, aplicações e direções futuras do RAS.

Large Language Models (LLMs) have revolutionized natural language processing with their remarkable capabilities in text generation and reasoning. However, these models face critical challenges when deployed in real-world applications, including hallucination generation, outdated knowledge, and limited domain expertise. Retrieval And Structuring (RAS) Augmented Generation addresses these limitations by integrating dynamic information retrieval with structured knowledge representations. This survey (1) examines retrieval mechanisms including sparse, dense, and hybrid approaches for accessing external knowledge; (2) explore text structuring techniques such as taxonomy construction, hierarchical classification, and information extraction that transform unstructured text into organized representations; and (3) investigate how these structured representations integrate with LLMs through prompt-based methods, reasoning frameworks, and knowledge embedding techniques. It also identifies technical challenges in retrieval efficiency, structure quality, and knowledge integration, while highlighting research opportunities in multimodal retrieval, cross-lingual structures, and interactive systems. This comprehensive overview provides researchers and practitioners with insights into RAS methods, applications, and future directions.

Link do artigo

https://arxiv.org/abs/2509.10697

ParaThinker: pensamento paralelo nativo como um novo paradigma para escalar a computação em tempo de teste de LLMs / ParaThinker: Native Parallel Thinking as a New Paradigm to Scale LLM Test-time Compute

Introdução do artigo

O avanço dos grandes modelos de linguagem (LLMs) tem dependido fortemente, nos últimos tempos, de estratégias de escalonamento da computação em tempo de teste, o que tem contribuído para melhorar a capacidade de raciocínio dos modelos. No entanto, essa abordagem enfrenta um gargalo em que os ganhos de desempenho se tornam modestos à medida que o volume de computação aumenta. Esse problema é resultado de um fenômeno chamado "visão de túnel (Tunnel Vision)", no qual um raciocínio incompleto nas etapas iniciais faz o modelo ficar preso a caminhos não ideais. Para resolver isso, foi proposto um novo paradigma chamado paralelismo nativo de pensamento (Native Thought Parallelism), um método que gera simultaneamente vários caminhos de raciocínio diversos e os sintetiza para chegar à resposta final.

O framework end-to-end chamado ParaThinker concentra-se em implementar esse paralelismo de pensamento. Esse sistema treina o modelo para gerar de forma independente diferentes linhas de pensamento, evitando assim de maneira eficaz o problema da visão de túnel e maximizando a capacidade potencial de raciocínio do modelo. O ParaThinker alcança esse objetivo por meio de três inovações principais. Primeiro, introduz tokens de controle treináveis para garantir a originalidade de cada caminho; segundo, distingue claramente a origem de cada caminho por meio de embeddings posicionais específicos de pensamento; terceiro, usa uma estratégia de Supervised Fine-Tuning para permitir que o modelo gere mais caminhos paralelos.

Essa abordagem alcançou, em benchmarks desafiadores de raciocínio, melhorias de acurácia médias de 12,3% no modelo 1.5B e de 7,5% no modelo 7B em comparação com modelos de raciocínio autorregressivo existentes, enquanto a latência permaneceu em um nível mínimo de 7,1%. Com isso, o ParaThinker sugere a possibilidade de modelos menores superarem modelos muito maiores e apresenta um novo caminho para a escalabilidade futura dos LLMs. Os resultados da pesquisa identificam o gargalo que surge no processo de raciocínio dos LLMs e fazem uma contribuição importante para a área ao demonstrar que o paralelismo nativo de pensamento é um método de escalonamento superior.

Resumo do artigo (Abstract)

Os avanços recentes dos grandes modelos de linguagem (LLMs) têm sido impulsionados pelo escalonamento de computação em tempo de teste — uma estratégia que melhora o raciocínio ao gerar processos de pensamento sequenciais mais longos. Embora eficaz, essa abordagem encontra um gargalo significativo à medida que a computação aumenta, no qual computação adicional oferece apenas ganhos marginais de desempenho. Argumentamos que esse teto não é um limite inerente da capacidade do modelo, mas uma falha da própria estratégia de escalonamento. Chamamos esse fenômeno de "visão de túnel", em que etapas iniciais imperfeitas do modelo o prendem a um caminho de raciocínio subótimo. Para superar isso, introduzimos um novo paradigma de escalonamento: paralelismo nativo de pensamento. Apresentamos o ParaThinker, um framework end-to-end que treina um LLM para gerar múltiplos caminhos de raciocínio diversos em paralelo e sintetizá-los em uma resposta final superior. Ao explorar simultaneamente diferentes linhas de pensamento, o ParaThinker evita de forma eficaz o problema da visão de túnel e libera o potencial latente de raciocínio do modelo. Nossa abordagem demonstra que escalar a computação em paralelo (largura) é uma forma mais eficaz e eficiente de alcançar raciocínio superior do que simplesmente escalar de forma sequencial (profundidade). Em benchmarks de raciocínio desafiadores, o ParaThinker alcançou melhorias substanciais de acurácia em relação a LLMs sequenciais (média de 12,3% para modelos 1.5B e 7,5% para modelos 7B), enquanto o overhead de latência permaneceu em nível desprezível (7,1%). Isso permite que modelos menores superem modelos muito maiores e estabelece o pensamento paralelo como uma dimensão crítica e eficiente para o escalonamento futuro de LLMs.
> Recent advances in Large Language Models (LLMs) have been driven by test-time compute scaling - a strategy that improves reasoning by generating longer, sequential thought processes. While effective, this approach encounters a significant bottleneck as computation increases, where further computation offers only marginal performance gains. We argue this ceiling is not an inherent limit of the model's capability but a flaw in the scaling strategy itself, a phenomenon we term "Tunnel Vision", where a model's imperfect initial steps lock it into a suboptimal reasoning path. To overcome this, we introduce a new scaling paradigm: native thought parallelism. We present ParaThinker, an end-to-end framework that trains an LLM to generate multiple, diverse reasoning paths in parallel and synthesize them into a superior final answer. By exploring different lines of thoughts simultaneously, ParaThinker effectively sidesteps the Tunnel Vision issue and unlocks the model's latent reasoning potential. Our approach demonstrates that scaling compute in parallel (width) is a more effective and efficient way to superior reasoning than simply scaling sequentially (depth). On challenging reasoning benchmarks, ParaThinker achieves substantial accuracy improvements over sequential LLMs (12.3% for 1.5B and 7.5% for 7B models on average with 8 parallel paths), while adding only negligible latency overhead (7.1%). This enables smaller models to surpass much larger counterparts and establishes parallel thinking as a critical, efficient dimension for scaling future LLMs.

Link do artigo

https://arxiv.org/abs/2509.04475

Fine-tuning em contexto para modelos fundacionais de séries temporais / In-Context Fine-Tuning for Time-Series Foundation Models

Apresentação do artigo

A previsão de dados de séries temporais é uma tarefa importante em diversas áreas, e os avanços recentes nos modelos fundacionais de séries temporais estão abrindo novas possibilidades para esse problema. Neste estudo, propõe-se uma nova metodologia para maximizar o desempenho desses modelos, chamada $\textit{in-context fine-tuning}$. Essa metodologia foi projetada para permitir que um modelo fundacional pré-treinado utilize vários exemplos de séries temporais para prever no futuro uma série temporal específica.

O modelo proposto é treinado para, durante a inferência, adaptar-se à distribuição específica do domínio-alvo usando, na janela de contexto, não apenas o histórico da série temporal alvo, mas também exemplos de séries temporais relacionadas. Essa abordagem permite que o modelo aprenda padrões de diversas séries temporais e, com base neles, realize previsões mais precisas. Os resultados experimentais mostraram que esse modelo apresentou desempenho muito superior em comparação com métodos de deep learning baseados em aprendizado supervisionado, modelos estatísticos e outros modelos fundacionais de séries temporais já existentes.

Em particular, a abordagem de in-context fine-tuning apresentou desempenho competitivo até mesmo em relação a modelos explicitamente ajustados ao domínio-alvo, destacando o caráter inovador dessa metodologia. A arquitetura do modelo é baseada no TimesFM, sendo estruturada para processar dados de séries temporais de forma eficaz. Os exemplos de entrada são divididos em patches de comprimento $p$, com o uso de uma máscara de padding para garantir a precisão da previsão.

No processo de tokenização, os tokens gerados pela integração de patches e máscara são inseridos em camadas Transformer empilhadas, das quais são obtidos os resultados da previsão. Essa sequência de etapas desempenha um papel importante para que o modelo processe os dados de entrada com eficiência e preveja a série temporal dos próximos $h$ passos. Este estudo apresenta uma nova abordagem para a previsão de dados de séries temporais e demonstra empiricamente que o in-context fine-tuning pode oferecer desempenho superior aos métodos existentes.

Resumo(Abstract)

Impulsionados pelo sucesso recente dos modelos fundacionais de séries temporais para previsão zero-shot, apresentamos uma metodologia de $\textit{fine-tuning em contexto}$ para um modelo fundacional de séries temporais. Em particular, projetamos um modelo fundacional pré-treinado que pode ser instruído, no momento da inferência, com vários exemplos de séries temporais para prever uma série temporal-alvo no futuro. Nosso modelo fundacional é treinado especificamente para utilizar exemplos de várias séries temporais relacionadas em sua janela de contexto, além do histórico da série temporal-alvo, ajudando-o a se adaptar à distribuição específica do domínio-alvo durante a inferência. Mostramos que esse tipo de modelo fundacional, que usa exemplos em contexto no momento da inferência, pode obter desempenho muito superior em benchmarks populares de previsão quando comparado a métodos supervisionados de deep learning, modelos estatísticos e outros modelos fundacionais de séries temporais. Curiosamente, nossa abordagem de fine-tuning em contexto chega até mesmo a rivalizar com o desempenho de um modelo fundacional explicitamente ajustado no domínio-alvo.
> Motivated by the recent success of time-series foundation models for zero-shot forecasting, we present a methodology for $\textit{in-context fine-tuning}$ of a time-series foundation model. In particular, we design a pretrained foundation model that can be prompted (at inference time) with multiple time-series examples, in order to forecast a target time-series into the future. Our foundation model is specifically trained to utilize examples from multiple related time-series in its context window (in addition to the history of the target time-series) to help it adapt to the specific distribution of the target domain at inference time. We show that such a foundation model that uses in-context examples at inference time can obtain much better performance on popular forecasting benchmarks compared to supervised deep learning methods, statistical models, as well as other time-series foundation models. Interestingly, our in-context fine-tuning approach even rivals the performance of a foundation model that is explicitly fine-tuned on the target domain.

Link do artigo

https://arxiv.org/abs/2410.24087

Apenas 1 bit basta: redes neurais normalizadas binárias / 1 bit is all we need: binary normalized neural networks

Apresentação do artigo

O avanço dos modelos de redes neurais de grande escala tem demonstrado desempenho excepcional em diversas áreas de aplicação, mas o aumento do tamanho desses modelos tem trazido desafios em termos de requisitos de memória e eficiência computacional. Para enfrentar esse problema, este estudo propõe um novo tipo de modelo de rede neural, a camada normalizada binária (binary normalized layer), que restringe os parâmetros de todas as camadas a um único bit. Essa camada foi projetada para definir todos os parâmetros, incluindo pesos de kernel e vieses, como 0 ou 1, reduzindo drasticamente o uso de memória e, ao mesmo tempo, mantendo desempenho semelhante ao de modelos que utilizam parâmetros tradicionais de ponto flutuante de 32 bits.

A camada normalizada binária pode ser aplicada a diversas arquiteturas de redes neurais, como camadas totalmente conectadas, convolução e atenção, e utiliza duas formas de valores durante o treinamento — valores de precisão total em 32 bits e valores binarizados — para garantir estabilidade no aprendizado. Neste estudo, foram construídos dois modelos que utilizam a camada normalizada binária para resolver problemas de classificação de imagens multiclasse e decodificação de linguagem. Os resultados experimentais mostram que esses modelos apresentam desempenho quase idêntico ao de modelos que usam parâmetros de 32 bits, enquanto o uso de memória é reduzido em 32 vezes.

Essa abordagem inovadora tem potencial para melhorar significativamente a eficiência de modelos de redes neurais de grande escala e oferece a vantagem de poder ser implementada com facilidade mesmo em hardware de baixo custo. A camada normalizada binária abre novas possibilidades para reduzir as exigências de memória dos modelos de redes neurais e aumentar sua aplicabilidade prática em diversos domínios. Pesquisas futuras devem avançar no aprimoramento do desempenho da camada normalizada binária e na exploração de metodologias para aplicá-la a diferentes áreas.

Resumo do artigo (Abstract)

A seguir está o resumo de um artigo da área de AI/ML. À medida que o tamanho de modelos de redes neurais de grande escala, especialmente modelos de linguagem e modelos fundamentais de imagem, aumenta, surgem desafios de implantação, o que tem impulsionado esforços para reduzir os requisitos de memória e melhorar a eficiência computacional. Esses esforços são cruciais para garantir a implantação prática e o uso eficaz desses modelos em várias aplicações. Neste estudo, foi desenvolvido um novo tipo de camada e modelo de rede neural que usa apenas parâmetros de um único bit. Nesse novo tipo de modelo, todos os parâmetros de todas as camadas, ou seja, pesos do kernel e vieses, têm apenas valores 0 ou 1. Esse novo tipo de modelo utiliza camadas chamadas binary normalized layer. Essas binary normalized layers podem ser de qualquer tipo, como totalmente conectadas, convolucionais, de atenção etc., e consistem em pequenas variações das camadas convencionais correspondentes. Para demonstrar a eficácia das binary normalized layers, foram configurados dois modelos para resolver um problema de classificação de imagens multiclasse e um decodificador de linguagem para prever o próximo token de uma sequência. O modelo para classificação de imagens é composto por camadas convolucionais e totalmente conectadas, e o modelo de linguagem é composto por blocos transformer com atenção multi-head. Os resultados mostram que modelos com binary normalized layers apresentam resultados quase idênticos aos obtidos por modelos equivalentes com parâmetros reais de 32 bits. As binary normalized layers permitem desenvolver modelos que usam 32 vezes menos memória do que os modelos atuais e têm desempenho equivalente. Além disso, as binary normalized layers podem ser facilmente implementadas em computadores atuais usando arrays de 1 bit, sem exigir o desenvolvimento de hardware eletrônico dedicado. Esse novo tipo de camada abre uma nova era para modelos de redes neurais de grande escala com requisitos de memória reduzidos, que podem ser implantados com hardware simples e barato, como dispositivos móveis ou apenas CPUs.
> The increasing size of large neural network models, specifically language models and foundational image models, poses deployment challenges, prompting efforts to reduce memory requirements and enhance computational efficiency. These efforts are critical to ensure practical deployment and effective utilization of these models across various applications. In this work, a novel type of neural network layers and models is developed that uses only single-bit parameters. In this novel type of models all parameters of all layers, including kernel weights and biases, only have values equal to zero or one. This novel type of models uses layers named as binary normalized layer. These binary normalized layers can be of any type, such as fully connected, convolutional, attention, etc., and they consist of slight variations of the corresponding conventional layers. To show the effectiveness of the binary normalized layers, two different models are configured to solve a multiclass image classification problem and a language decoder to predict the next token of a sequence. The model to solve the image classification has convolutional and fully connected layers, and the language model is composed of transformer blocks with multi-head attention. The results show that models with binary normalized layers present almost the same results obtained by equivalent models with real 32-bit parameters. The binary normalized layers allow to develop models that use 32 times less memory than current models and have equivalent performance. Besides, the binary normalized layers can be easily implemented on current computers using 1-bit arrays, and do not require the development of dedicated electronic hardware. This novel type of layers opens a new era for large neural network models with reduced memory requirements that can be deployed using simple and cheap hardware, such as mobile devices or only cpus.

Link do artigo

https://arxiv.org/abs/2509.07025

Internalização da autoconsistência em modelos de linguagem: alinhamento por consenso multiagente / Internalizing Self-Consistency in Language Models: Multi-Agent Consensus Alignment

Introdução ao artigo

Modelos de linguagem (LMs) tendem a gerar respostas contraditórias para o mesmo prompt, mostrando raciocínio inconsistente. Métodos existentes em tempo de inferência podem mitigar essas discrepâncias, mas não resolvem o problema fundamental: a dificuldade de selecionar caminhos de raciocínio que levem a resultados consistentes. Para resolver isso, este estudo formaliza a autoconsistência como uma propriedade intrínseca de modelos de raciocínio bem alinhados e introduz um framework de aprendizado por reforço chamado Multi-Agent Consensus Alignment (MACA). O MACA usa resultados majoritários/minoritários para pós-treinar o modelo a preferir caminhos de raciocínio alinhados ao consenso interno. Esses caminhos surgem de discussões aprofundadas entre agentes e, por se basearem em argumentos de pares em vez de um conjunto de tentativas independentes, geram sinais de consenso mais ricos. O MACA permite que agentes aprendam por conta própria, de forma mais decisiva e concisa, mesmo sem supervisão externa, e produz melhorias substanciais em várias configurações de autoconsistência, raciocínio com agente único, raciocínio baseado em amostragem e tomada de decisão coletiva multiagente. Esses resultados, juntamente com uma forte capacidade de generalização para benchmarks não vistos, mostram um poderoso autoalinhamento que extrai de forma mais confiável a capacidade latente de raciocínio dos modelos de linguagem.

Resumo do artigo (Abstract)

Os modelos de linguagem (LLMs) são raciocinadores inconsistentes, muitas vezes gerando respostas contraditórias para prompts idênticos. Embora métodos no tempo de inferência possam mitigar essas inconsistências, eles não resolvem o problema central: os LLMs têm dificuldade para selecionar de forma confiável caminhos de raciocínio que levem a resultados consistentes sob amostragem exploratória. Para lidar com isso, formalizamos a autoconsistência como uma propriedade intrínseca de modelos de raciocínio bem alinhados e introduzimos o Multi-Agent Consensus Alignment (MACA), um framework de aprendizado por reforço que pós-treina modelos para favorecer trajetórias de raciocínio alinhadas com seu consenso interno usando resultados de maioria/minoria de debates multiagente. Essas trajetórias surgem de trocas deliberativas em que os agentes fundamentam o raciocínio nos argumentos dos pares, e não apenas na agregação de tentativas independentes, criando sinais de consenso mais ricos do que uma votação majoritária de rodada única. O MACA permite que os agentes ensinem a si mesmos a ser mais decisivos e concisos, além de aproveitar melhor os insights dos pares em ambientes multiagente sem supervisão externa, impulsionando melhorias substanciais em autoconsistência (+27.6% no GSM8K), raciocínio de agente único (+23.7% no MATH), inferência baseada em amostragem (+22.4% Pass@20 no MATH) e tomada de decisão em ensemble multiagente (+42.7% no MathQA). Essas descobertas, combinadas com forte generalização para benchmarks não vistos (+16.3% no GPQA, +11.6% no CommonsenseQA), demonstram um autoalinhamento robusto que libera de forma mais confiável o potencial latente de raciocínio dos modelos de linguagem.

Language Models (LMs) are inconsistent reasoners, often generating contradictory responses to identical prompts. While inference-time methods can mitigate these inconsistencies, they fail to address the core problem: LMs struggle to reliably select reasoning pathways leading to consistent outcomes under exploratory sampling. To address this, we formalize self-consistency as an intrinsic property of well-aligned reasoning models and introduce Multi-Agent Consensus Alignment (MACA), a reinforcement learning framework that post-trains models to favor reasoning trajectories aligned with their internal consensus using majority/minority outcomes from multi-agent debate. These trajectories emerge from deliberative exchanges where agents ground reasoning in peer arguments, not just aggregation of independent attempts, creating richer consensus signals than single-round majority voting. MACA enables agents to teach themselves to be more decisive and concise, and better leverage peer insights in multi-agent settings without external supervision, driving substantial improvements across self-consistency (+27.6% on GSM8K), single-agent reasoning (+23.7% on MATH), sampling-based inference (+22.4% Pass@20 on MATH), and multi-agent ensemble decision-making (+42.7% on MathQA). These findings, coupled with strong generalization to unseen benchmarks (+16.3% on GPQA, +11.6% on CommonsenseQA), demonstrate robust self-alignment that more reliably unlocks latent reasoning potential of language models.

Link do artigo

https://arxiv.org/abs/2509.15172

Pesquisa Profunda Universal: traga seu próprio modelo e estratégia / Universal Deep Research: Bring Your Own Model and Strategy

Introdução ao artigo

Universal Deep Research (UDR) é um sistema agente generalizado desenvolvido para superar a limitação das ferramentas de deep research existentes, que eram hardcoded para executar estratégias de pesquisa específicas de forma fixa. O UDR oferece aos usuários a capacidade de criar, editar e aprimorar suas próprias estratégias personalizadas de deep research, sendo inovador por não exigir treinamento adicional nem fine-tuning nesse processo. O sistema demonstra sua generalidade por meio de diversos exemplos, desde estratégias mínimas de pesquisa até estratégias amplas e intensivas.

O núcleo do UDR é facilitar a experimentação por meio de uma interface de usuário, permitindo que pesquisadores explorem livremente suas próprias estratégias de pesquisa. Essa abordagem oferece aos pesquisadores a oportunidade de desenvolver metodologias originais sem depender das ferramentas existentes. Em particular, o UDR encapsula diversos modelos de linguagem, oferecendo a flexibilidade de o usuário escolher e usar o modelo de sua preferência.

Esta pesquisa contribui para o avanço das ferramentas de deep research e tem como foco permitir que pesquisadores estabeleçam estratégias de pesquisa mais criativas e personalizadas. Espera-se que a introdução do UDR desempenhe um papel importante no aumento da eficiência e da eficácia da pesquisa. Nesse sentido, o UDR tende a se consolidar como um sistema inovador que abre novas possibilidades no campo de deep research.

Resumo do artigo (Abstract)

As ferramentas de deep research estão entre os sistemas agentivos mais impactantes e mais comumente encontrados hoje. No entanto, observamos que cada agente de deep research apresentado até agora foi hardcoded para executar uma estratégia de pesquisa específica usando uma escolha fixa de ferramentas. Apresentamos o Universal Deep Research (UDR), um sistema agente generalista que envolve qualquer modelo de linguagem e permite ao usuário criar, editar e refinar suas próprias estratégias de deep research totalmente personalizadas sem necessidade de treinamento adicional ou fine-tuning. Para demonstrar a generalidade do sistema, equipamos o UDR com exemplos de estratégias de pesquisa mínimas, expansivas e intensivas, e fornecemos uma interface de usuário para facilitar a experimentação com o sistema.

Deep research tools are among the most impactful and most commonly encountered agentic systems today. We observe, however, that each deep research agent introduced so far is hard-coded to carry out a particular research strategy using a fixed choice of tools. We introduce Universal Deep Research (UDR), a generalist agentic system that wraps around any language model and enables the user to create, edit, and refine their own entirely custom deep research strategies without any need for additional training or finetuning. To showcase the generality of our system, we equip UDR with example minimal, expansive, and intensive research strategies, and provide a user interface to facilitate experimentation with the system.

Link do artigo

https://arxiv.org/abs/2509.00244

AlphaAgents: múltiplos agentes baseados em grandes modelos de linguagem para construção de portfólios de ações / AlphaAgents: Large Language Model based Multi-Agents for Equity Portfolio Constructions

Introdução ao artigo

O avanço dos grandes modelos de linguagem (LLMs) tem contribuído para maximizar a eficiência e a adaptabilidade dos agentes de inteligência artificial (IA), abrindo possibilidades para a colaboração entre múltiplos agentes na resolução de problemas complexos. Este estudo explora uma abordagem baseada em papéis para seleção de ações e gestão de portfólio usando esse tipo de sistema multiagente. O objetivo central da pesquisa é avaliar o desempenho da seleção de ações feita por vários agentes de IA em cooperação e compará-la com benchmarks existentes.

O sistema multiagente é composto por agentes com diferentes especializações, como análise fundamentalista, análise de sentimento e valuation, que discutem entre si para montar o portfólio ideal. O estudo seleciona aleatoriamente 15 ações de tecnologia e avalia o desempenho por meio de backtesting, analisando a efetividade do portfólio com base em retorno ajustado ao risco e índice de Sharpe. Essa metodologia sugere a possibilidade de derivar estratégias de investimento melhores por meio de um processo colaborativo de tomada de decisão entre múltiplos agentes.

O estudo analisa as vantagens e limitações de sistemas multiagentes e propõe maneiras de melhorar a tomada de decisão integrando as diversas perspectivas fornecidas pelos agentes de IA. No entanto, a implementação desses sistemas envolve desafios como a validação da consistência lógica por meio de revisão humana. Os resultados mostram que sistemas multiagentes podem oferecer uma abordagem inovadora para a construção de portfólios de ações, e pesquisas futuras pretendem explorar recursos para ajustar o peso das ações de acordo com a confiabilidade dos LLMs.

Esse tipo de pesquisa contribui para o desenvolvimento de estratégias de investimento baseadas em IA e aponta o potencial de uso de sistemas multiagentes.

Resumo do artigo (Abstract)

A área de agentes de inteligência artificial (IA) está evoluindo rapidamente, impulsionada pelas capacidades dos grandes modelos de linguagem (LLMs), que podem executar e aprimorar tarefas de forma autônoma com eficiência e adaptabilidade semelhantes às humanas. Nesse contexto, a colaboração multiagente surgiu como uma abordagem promissora, permitindo que vários agentes de IA trabalhem juntos para resolver desafios complexos. Neste estudo, investigamos a aplicação de sistemas multiagentes baseados em papéis para apoiar a seleção de ações em research de equities e gestão de portfólio. Apresentamos uma análise abrangente realizada por uma equipe de agentes especializados e avaliamos seu desempenho na escolha de ações em comparação com benchmarks estabelecidos sob diferentes níveis de tolerância a risco. Além disso, examinamos as vantagens e limitações do uso de frameworks multiagentes na análise de ações, oferecendo insights críticos sobre sua eficácia prática e os desafios de implementação.
> The field of artificial intelligence (AI) agents is evolving rapidly, driven by the capabilities of Large Language Models (LLMs) to autonomously perform and refine tasks with human-like efficiency and adaptability. In this context, multi-agent collaboration has emerged as a promising approach, enabling multiple AI agents to work together to solve complex challenges. This study investigates the application of role-based multi-agent systems to support stock selection in equity research and portfolio management. We present a comprehensive analysis performed by a team of specialized agents and evaluate their stock-picking performance against established benchmarks under varying levels of risk tolerance. Furthermore, we examine the advantages and limitations of employing multi-agent frameworks in equity analysis, offering critical insights into their practical efficacy and implementation challenges.

Link do artigo

https://arxiv.org/abs/2508.11152

Survey de aprendizado por reforço para grandes modelos de raciocínio / A Survey of Reinforcement Learning for Large Reasoning Models

Introdução ao artigo

O aprendizado por reforço (Reinforcement Learning, RL) tem desempenhado um papel importante no aprimoramento da capacidade de raciocínio dos grandes modelos de linguagem (Large Language Models, LLMs), e este artigo analisa a evolução para grandes modelos de raciocínio (Large Reasoning Models, LRMs) por meio de RL. O RL tem mostrado resultados notáveis em tarefas lógicas complexas, como resolução de problemas matemáticos e tarefas de programação, consolidando-se como uma metodologia fundamental para transformar LLMs em LRMs. No entanto, a expansão do RL para LRMs enfrenta diversos desafios em termos de recursos computacionais, desenho de algoritmos, dados de treinamento e infraestrutura.

Este estudo revisa várias pesquisas que aplicam RL para melhorar a capacidade de raciocínio de LLMs e LRMs, com foco especial em avanços recentes, incluindo o modelo DeepSeek-R1, analisando componentes fundamentais do RL, como design de recompensas, otimização de política e estratégias de amostragem. O design de recompensas é um sinal crucial que determina a direção do aprendizado do modelo, e a importância de mecanismos de recompensa verificáveis é enfatizada. A otimização de política é o processo pelo qual o modelo aprende a selecionar a melhor ação, incluindo algoritmos baseados em crítico e algoritmos sem crítico. Além disso, estratégias de amostragem são discutidas como formas de aumentar a eficiência do RL, incluindo amostragem dinâmica e ajuste de hiperparâmetros.

Este artigo destaca a importância do processo integrado de treinamento de LLMs com RL, bem como da qualidade e da estrutura dos recursos de treinamento, e demonstra a aplicabilidade prática do RL por meio de casos de uso em engenharia de software e tarefas robóticas. Em especial, a integração entre RL e o paradigma de agentes está impulsionando avanços em geração de código e também produzindo resultados bem-sucedidos em tarefas multimodais. Esse tipo de pesquisa aponta novas direções para aprimorar a capacidade de raciocínio dos LLMs e deve contribuir, em última instância, para estabelecer as bases para alcançar a superinteligência artificial (Artificial SuperIntelligence, ASI).

Resumo do artigo (Abstract)

Este artigo analisa os avanços recentes em Reinforcement Learning (RL) para raciocínio com Large Language Models (LLMs). O RL obteve sucesso notável em ampliar as fronteiras das capacidades dos LLMs, especialmente na resolução de tarefas lógicas complexas, como matemática e programação. Como resultado, o RL se consolidou como uma metodologia fundamental para transformar LLMs em LRMs. Com o rápido progresso da área, a expansão adicional do RL para LRMs agora enfrenta desafios fundamentais não apenas em recursos computacionais, mas também em design de algoritmos, dados de treinamento e infraestrutura. Diante disso, é oportuno revisitar o desenvolvimento desse campo, reavaliar sua trajetória e explorar estratégias para melhorar a escalabilidade do RL em direção à Artificial SuperIntelligence (ASI). Em particular, examinamos pesquisas que aplicam RL a LLMs e LRMs para capacidades de raciocínio, especialmente desde o lançamento do DeepSeek-R1, incluindo componentes fundamentais, problemas centrais, recursos de treinamento e aplicações downstream, a fim de identificar oportunidades e direções futuras para essa área em rápida evolução. Esperamos que esta revisão incentive pesquisas futuras sobre RL para modelos de raciocínio mais amplos. GitHub: https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs
> In this paper, we survey recent advances in Reinforcement Learning (RL) for reasoning with Large Language Models (LLMs). RL has achieved remarkable success in advancing the frontier of LLM capabilities, particularly in addressing complex logical tasks such as mathematics and coding. As a result, RL has emerged as a foundational methodology for transforming LLMs into LRMs. With the rapid progress of the field, further scaling of RL for LRMs now faces foundational challenges not only in computational resources but also in algorithm design, training data, and infrastructure. To this end, it is timely to revisit the development of this domain, reassess its trajectory, and explore strategies to enhance the scalability of RL toward Artificial SuperIntelligence (ASI). In particular, we examine research applying RL to LLMs and LRMs for reasoning abilities, especially since the release of DeepSeek-R1, including foundational components, core problems, training resources, and downstream applications, to identify future opportunities and directions for this rapidly evolving area. We hope this review will promote future research on RL for broader reasoning models. Github: https://github.com/TsinghuaC3I/Awesome-RL-for-LRMs

Link do artigo

https://arxiv.org/abs/2509.08827

[2025/09/22 ~ 28] Coletânea de artigos de AI/ML para acompanhar nesta semana