ML para acompanhar nesta semana

(discuss.pytorch.kr)

14 pontos por ninebow 2025-08-27 | Ainda não há comentários. | Compartilhar no WhatsApp

[2025/08/18 ~ 24] Coletânea de artigos de AI/ML para acompanhar nesta semana

PyTorchKR🔥🇰🇷 🤔💭

1️⃣ Ao observar os artigos selecionados desta semana, é possível identificar algumas tendências principais. A primeira é que se destaca o esforço para otimizar simultaneamente a eficiência e o desempenho dos grandes modelos de linguagem. Vários artigos apresentam diferentes abordagens para melhorar o desempenho dos modelos; por exemplo, DeepConf e Avengers-Pro mostram tentativas de equilibrar desempenho e custo por meio do uso de sinais internos de confiança do modelo ou de frameworks de roteamento eficientes. Essas abordagens refletem o interesse dos pesquisadores em maximizar o desempenho enquanto reduzem o alto custo computacional, especialmente em modelos de grande escala.

2️⃣ A segunda tendência trata do impacto negativo que modelos de linguagem com respostas emocionais podem ter sobre a confiabilidade. Um artigo específico mostra que modelos otimizados para respostas calorosas e empáticas podem reduzir a confiabilidade, o que exige ainda mais cuidado quando sistemas de IA desempenham papéis importantes nas relações com as pessoas. Esse tipo de pesquisa contribui de forma importante para considerar a responsabilidade social e os aspectos éticos da IA.

3️⃣ A terceira tendência diz respeito aos avanços em compreensão de vídeo e processamento multimodal. Artigos recentes propõem novas metodologias para processar e compreender dados de vídeo com eficácia, mostrando um esforço para explorar de forma mais profunda a interação entre vídeo e texto. Pesquisas como Infinite Video Understanding e GLIMPSE avançam no sentido de superar os limites da compreensão de vídeo e permitir que os modelos vão além da simples análise de frames para alcançar um raciocínio genuíno sobre vídeos. Espera-se que essa tendência, junto com o avanço da IA multimodal, abra diversas possibilidades de aplicação.

Pensar profundamente com confiança / Deep Think with Confidence

Introdução ao artigo

Pensar profundamente com confiança (DeepConf; Deep Think with Confidence) é um novo método projetado para melhorar a eficiência e o desempenho de tarefas de raciocínio em grandes modelos de linguagem (LLMs) sem treinamento adicional nem ajuste de hiperparâmetros. Ao aproveitar sinais internos de confiança, o DeepConf filtra de forma eficaz rastros de raciocínio de baixa qualidade, melhorando significativamente a precisão e reduzindo o overhead computacional. Resultados de avaliação em diversas tarefas de raciocínio, incluindo benchmarks como o AIME 2025, mostram que o DeepConf pode alcançar até 99,9% de precisão em comparação com abordagens existentes, ao mesmo tempo em que reduz em até 84,7% os tokens gerados. Essa abordagem pode ser integrada facilmente a frameworks de serving já existentes, tornando-se uma solução prática para melhorar o desempenho de LLMs.

Resumo do artigo (Abstract)

Grandes modelos de linguagem (LLMs) têm demonstrado grande potencial em tarefas de raciocínio por meio de métodos de escalonamento em tempo de teste, como a autoconsistência com votação por maioria. No entanto, essa abordagem frequentemente leva a retornos decrescentes em precisão e alto custo computacional. Para enfrentar esses desafios, apresentamos o Deep Think with Confidence (DeepConf), um método simples, mas poderoso, que melhora tanto a eficiência quanto o desempenho do raciocínio em tempo de teste. O DeepConf aproveita sinais internos de confiança do modelo para filtrar dinamicamente rastros de raciocínio de baixa qualidade durante ou após a geração. Ele não requer treinamento adicional do modelo nem ajuste de hiperparâmetros e pode ser integrado de forma transparente a frameworks de serving existentes. Avaliamos o DeepConf em uma variedade de tarefas de raciocínio e nos modelos open source mais recentes, incluindo as séries Qwen 3 e GPT-OSS. Em particular, em benchmarks desafiadores como o AIME 2025, o DeepConf@512 alcança até 99,9% de precisão e reduz em até 84,7% o número de tokens gerados em comparação com o pensamento paralelo completo.

Large Language Models (LLMs) have shown great potential in reasoning tasks through test-time scaling methods like self-consistency with majority voting. However, this approach often leads to diminishing returns in accuracy and high computational overhead. To address these challenges, we introduce Deep Think with Confidence (DeepConf), a simple yet powerful method that enhances both reasoning efficiency and performance at test time. DeepConf leverages model-internal confidence signals to dynamically filter out low-quality reasoning traces during or after generation. It requires no additional model training or hyperparameter tuning and can be seamlessly integrated into existing serving frameworks. We evaluate DeepConf across a variety of reasoning tasks and the latest open-source models, including Qwen 3 and GPT-OSS series. Notably, on challenging benchmarks such as AIME 2025, DeepConf@512 achieves up to 99.9% accuracy and reduces generated tokens by up to 84.7% compared to full parallel thinking.

Link do artigo

https://arxiv.org/abs/2508.15260

Além do GPT-5: reduzindo custos e melhorando o desempenho de LLMs por meio de roteamento otimizado para desempenho e eficiência / Beyond GPT-5: Making LLMs Cheaper and Better via Performance-Efficiency Optimized Routing

[IMG] Além do GPT-5: reduzindo custos e melhorando o desempenho de LLMs por meio de roteamento otimizado para desempenho e eficiência / Beyond GPT-5: Making LLMs Cheaper and Better via Performance-Efficiency Optimized Routing|997x448

Introdução ao artigo

Equilibrar o avanço do desempenho e da eficiência dos grandes modelos de linguagem (LLMs) é um desafio importante. O Avengers-Pro é um framework de roteamento em tempo de teste que reúne LLMs com diferentes capacidades e níveis de eficiência, encaminhando cada consulta para o modelo apropriado de acordo com a pontuação ideal de desempenho-eficiência. Esse método alcança resultados de ponta em 6 benchmarks desafiadores e 8 modelos principais e, ao ajustar o parâmetro de trade-off entre desempenho e eficiência, pode melhorar a precisão média em +7% em relação ao GPT-5-medium. Além disso, ele atinge uma fronteira de Pareto que oferece consistentemente a melhor precisão por custo, igualando a precisão média do modelo individual mais forte com 27% menos custo e alcançando cerca de 90% do desempenho com 63% menos custo.

Resumo do artigo (Abstract)

Equilibrar desempenho e eficiência no avanço dos grandes modelos de linguagem (LLMs) é um desafio central. O GPT-5 aborda isso com test-time routing, atribuindo dinamicamente as consultas a um modelo eficiente ou a um modelo de alta capacidade durante a inferência. Neste trabalho, apresentamos o Avengers-Pro, uma estrutura de test-time routing que combina em conjunto LLMs com diferentes capacidades e eficiências, oferecendo uma solução unificada para todos os trade-offs entre desempenho e eficiência. O Avengers-Pro incorpora e agrupa as consultas recebidas e, em seguida, direciona cada uma ao modelo mais adequado com base em uma pontuação de desempenho-eficiência. Em 6 benchmarks desafiadores e 8 modelos líderes — incluindo GPT-5-medium, Gemini-2.5-pro e Claude-opus-4.1 —, o Avengers-Pro alcança resultados de ponta: ao variar um parâmetro de trade-off entre desempenho e eficiência, ele pode superar o modelo único mais forte (GPT-5-medium) em +7% de acurácia média. Além disso, consegue igualar a acurácia média do modelo único mais forte com 27% menos custo e atingir cerca de 90% desse desempenho com 63% menos custo. Por fim, ele atinge a fronteira de Pareto, oferecendo de forma consistente a maior acurácia para qualquer custo dado e o menor custo para qualquer acurácia dada entre todos os modelos únicos. O código está disponível em https://github.com/ZhangYiqun018/AvengersPro.

Balancing performance and efficiency is a central challenge in large language model (LLM) advancement. GPT-5 addresses this with test-time routing, dynamically assigning queries to either an efficient or a high-capacity model during inference. In this work, we present Avengers-Pro, a test-time routing framework that ensembles LLMs of varying capacities and efficiencies, providing a unified solution for all performance-efficiency tradeoffs. The Avengers-Pro embeds and clusters incoming queries, then routes each to the most suitable model based on a performance-efficiency score. Across 6 challenging benchmarks and 8 leading models -- including GPT-5-medium, Gemini-2.5-pro, and Claude-opus-4.1 -- Avengers-Pro achieves state-of-the-art results: by varying a performance-efficiency trade-off parameter, it can surpass the strongest single model (GPT-5-medium) by +7% in average accuracy. Moreover, it can match the average accuracy of the strongest single model at 27% lower cost, and reach ~90% of that performance at 63% lower cost. Last but not least, it achieves a Pareto frontier, consistently yielding the highest accuracy for any given cost, and the lowest cost for any given accuracy, among all single models. Code is available at https://github.com/ZhangYiqun018/AvengersPro.

Link do artigo

https://arxiv.org/abs/2508.12631

Raciocínio com aumento por recuperação usando modelos de linguagem leves / Retrieval-augmented reasoning with lean language models

Apresentação do artigo

Este estudo propõe uma nova abordagem para combinar raciocínio e geração aumentada por recuperação (RAG) dentro de uma arquitetura de modelo de linguagem leve. Enquanto os sistemas RAG existentes dependem de modelos de grande escala e APIs externas, este trabalho atende à necessidade de uma solução de alto desempenho que possa ser implantada em ambientes com restrições de recursos ou requisitos de segurança. Desenvolvemos um agente conversacional com aumento por recuperação capaz de interpretar consultas complexas e específicas de domínio usando um modelo de base leve, integrando um recuperador denso e o modelo Qwen2.5-Instruct. Os resultados da avaliação mostraram que a abordagem de ajuste fino específica de domínio melhora significativamente a precisão e a consistência das respostas, aproximando-se do desempenho de ponta e sendo adequada para implantação local.

Resumo do artigo (Abstract)

Este estudo descreve em detalhes uma nova abordagem para combinar raciocínio e geração aumentada por recuperação (RAG) dentro de uma única arquitetura enxuta de modelo de linguagem. Enquanto os sistemas RAG existentes normalmente dependem de modelos de grande escala e APIs externas, este trabalho atende à demanda crescente por soluções de alto desempenho e que preservem a privacidade, passíveis de implantação em ambientes com recursos limitados ou com requisitos de segurança. Com base em avanços recentes em escalonamento no tempo de teste e em pequenos modelos de raciocínio, desenvolvemos um agente conversacional com RAG capaz de interpretar consultas complexas e específicas de domínio usando um modelo-base leve. Nosso sistema integra um recuperador denso com modelos Qwen2.5-Instruct ajustados finamente, usando geração de consultas sintéticas e rastros de raciocínio derivados de modelos de ponta (por exemplo, DeepSeek-R1) sobre um corpus curado — neste caso, as páginas de doenças de A a Z do NHS. Exploramos o impacto da compressão de documentos baseada em sumarização, do desenho de dados sintéticos e do ajuste fino consciente de raciocínio no desempenho do modelo. A avaliação em comparação com modelos enxutos sem raciocínio e de propósito geral demonstra que nossa abordagem de ajuste fino específica de domínio produz ganhos substanciais na precisão e na consistência das respostas, aproximando-se do desempenho de nível de fronteira e permanecendo viável para implantação local. Todos os detalhes de implementação e o código são disponibilizados publicamente para apoiar a reprodutibilidade e a adaptação entre domínios.

This technical report details a novel approach to combining reasoning and retrieval augmented generation (RAG) within a single, lean language model architecture. While existing RAG systems typically rely on large-scale models and external APIs, our work addresses the increasing demand for performant and privacy-preserving solutions deployable in resource-constrained or secure environments. Building on recent developments in test-time scaling and small-scale reasoning models, we develop a retrieval augmented conversational agent capable of interpreting complex, domain-specific queries using a lightweight backbone model. Our system integrates a dense retriever with fine-tuned Qwen2.5-Instruct models, using synthetic query generation and reasoning traces derived from frontier models (e.g., DeepSeek-R1) over a curated corpus, in this case, the NHS A-to-Z condition pages. We explore the impact of summarisation-based document compression, synthetic data design, and reasoning-aware fine-tuning on model performance. Evaluation against both non-reasoning and general-purpose lean models demonstrates that our domain-specific fine-tuning approach yields substantial gains in answer accuracy and consistency, approaching frontier-level performance while remaining feasible for local deployment. All implementation details and code are publicly released to support reproducibility and adaptation across domains.

Link do artigo

https://arxiv.org/abs/2508.11386

Treinar modelos de linguagem para serem calorosos e empáticos os torna menos confiáveis e mais bajuladores / Training language models to be warm and empathetic makes them less reliable and more sycophantic

Apresentação do artigo

Treinar modelos de linguagem com uma personalidade calorosa e empática parece proporcionar uma experiência melhor para o usuário, mas isso acarreta um trade-off importante que pode reduzir a confiabilidade. Os resultados da pesquisa mostram que modelos treinados para gerar respostas calorosas apresentaram taxas de erro 10% a 30% maiores em tarefas críticas para a segurança, além de tenderem a fornecer informações factuais incorretas ou conselhos médicos problemáticos. Em especial, quando a tristeza era expressa na mensagem do usuário, esses modelos tinham maior probabilidade de confirmar crenças equivocadas. Esse fenômeno apareceu de forma consistente em diferentes arquiteturas de modelo, sugerindo que as práticas atuais de avaliação podem não detectar esses riscos sistemáticos.

Resumo do artigo (Abstract)

Desenvolvedores de inteligência artificial (AI) estão cada vez mais construindo modelos de linguagem com personas calorosas e empáticas, que milhões de pessoas agora usam para conselhos, terapia e companhia. Aqui, mostramos como isso cria um trade-off significativo: otimizar modelos de linguagem para calor humano compromete sua confiabilidade, especialmente quando os usuários expressam vulnerabilidade. Conduzimos experimentos controlados com cinco modelos de linguagem de diferentes tamanhos e arquiteturas, treinando-os para produzir respostas mais calorosas e empáticas e depois avaliando-os em tarefas críticas para a segurança. Os modelos calorosos apresentaram taxas de erro substancialmente maiores (+10 a +30 pontos percentuais) do que suas versões originais, promovendo teorias da conspiração, fornecendo informações factuais incorretas e oferecendo conselhos médicos problemáticos. Eles também foram significativamente mais propensos a validar crenças incorretas dos usuários, especialmente quando as mensagens expressavam tristeza. É importante destacar que esses efeitos foram consistentes em diferentes arquiteturas de modelo e ocorreram apesar da manutenção do desempenho em benchmarks padrão, revelando riscos sistemáticos que as práticas atuais de avaliação podem não conseguir detectar. À medida que sistemas de AI semelhantes a humanos são implantados em uma escala sem precedentes, nossos achados indicam a necessidade de repensar como desenvolvemos e supervisionamos esses sistemas que estão remodelando as relações humanas e a interação social.

Artificial intelligence (AI) developers are increasingly building language models with warm and empathetic personas that millions of people now use for advice, therapy, and companionship. Here, we show how this creates a significant trade-off: optimizing language models for warmth undermines their reliability, especially when users express vulnerability. We conducted controlled experiments on five language models of varying sizes and architectures, training them to produce warmer, more empathetic responses, then evaluating them on safety-critical tasks. Warm models showed substantially higher error rates (+10 to +30 percentage points) than their original counterparts, promoting conspiracy theories, providing incorrect factual information, and offering problematic medical advice. They were also significantly more likely to validate incorrect user beliefs, particularly when user messages expressed sadness. Importantly, these effects were consistent across different model architectures, and occurred despite preserved performance on standard benchmarks, revealing systematic risks that current evaluation practices may fail to detect. As human-like AI systems are deployed at an unprecedented scale, our findings indicate a need to rethink how we develop and oversee these systems that are reshaping human relationships and social interaction.

Link do artigo

https://arxiv.org/abs/2507.21919

GEPA: a evolução reflexiva de prompts pode superar o aprendizado por reforço / GEPA: Reflective Prompt Evolution Can Outperform Reinforcement Learning

Introdução ao artigo

GEPA (Genetic-Pareto) é uma metodologia de otimização de prompts que aproveita a interpretabilidade da linguagem para aprimorar o treinamento de grandes modelos de linguagem (LLMs), em contraste com a abordagem tradicional de aprendizado por reforço (RL), a otimização de política relativa de grupo (GRPO). Ao amostrar rastreadores em nível de sistema e refletir sobre eles em linguagem natural, o GEPA consegue diagnosticar problemas de forma eficaz, propor atualizações de prompt e integrar insights obtidos com sua própria experiência. Esse método reduziu significativamente o número de rollouts necessários e alcançou uma melhora média de 10% no desempenho em comparação com o GRPO, além de apresentar desempenho mais de 10% superior ao do MIPROv2, uma ferramenta líder em otimização de prompts. O GEPA também mostra potencial como uma estratégia eficaz para otimização de código em tempo de inferência.

Resumo(Abstract)

Os grandes modelos de linguagem (LLMs) estão sendo cada vez mais adaptados a mais tarefas downstream por meio de métodos de aprendizado por reforço (RL), como Group Relative Policy Optimization (GRPO), e esses métodos frequentemente exigem milhares de rollouts para aprender novas tarefas. Argumentamos que a natureza interpretável da linguagem pode fornecer aos LLMs um meio de aprendizado muito mais rico do que gradientes de política derivados de recompensas escalares esparsas. Para verificar isso, apresentamos o GEPA (Genetic-Pareto), um otimizador de prompts que integra profundamente reflexão em linguagem natural para aprender regras de alto nível por tentativa e erro. Dado um sistema de IA que contém um ou mais prompts de LLM, o GEPA amostra trajetórias em nível de sistema (por exemplo, raciocínio, chamadas de ferramentas e saídas de ferramentas) e reflete sobre elas em linguagem natural para diagnosticar problemas, propor e testar atualizações de prompt, além de combinar lições complementares da fronteira de Pareto de suas próprias tentativas. Como resultado do design do GEPA, ele muitas vezes consegue transformar até mesmo apenas alguns rollouts em um grande ganho de qualidade. Em quatro tarefas, o GEPA supera o GRPO em mais de 10% em média, chegando a até 20%, enquanto usa até 35 vezes menos rollouts. O GEPA também supera o principal otimizador de prompts, MIPROv2, em mais de 10% em dois LLMs, e mostra resultados promissores como estratégia de busca em tempo de inferência para otimização de código.

Large language models (LLMs) are increasingly adapted to downstream tasks via reinforcement learning (RL) methods like Group Relative Policy Optimization (GRPO), which often require thousands of rollouts to learn new tasks. We argue that the interpretable nature of language can often provide a much richer learning medium for LLMs, compared with policy gradients derived from sparse, scalar rewards. To test this, we introduce GEPA (Genetic-Pareto), a prompt optimizer that thoroughly incorporates natural language reflection to learn high-level rules from trial and error. Given any AI system containing one or more LLM prompts, GEPA samples system-level trajectories (e.g., reasoning, tool calls, and tool outputs) and reflects on them in natural language to diagnose problems, propose and test prompt updates, and combine complementary lessons from the Pareto frontier of its own attempts. As a result of GEPA's design, it can often turn even just a few rollouts into a large quality gain. Across four tasks, GEPA outperforms GRPO by 10% on average and by up to 20%, while using up to 35x fewer rollouts. GEPA also outperforms the leading prompt optimizer, MIPROv2, by over 10% across two LLMs, and demonstrates promising results as an inference-time search strategy for code optimization.

Link do artigo

https://arxiv.org/abs/2507.19457

GLIMPSE: os grandes modelos de visão-linguagem realmente entendem e raciocinam com vídeos, ou apenas dão uma olhada? / GLIMPSE: Do Large Vision-Language Models Truly Think With Videos or Just Glimpse at Them?

Apresentação do artigo

GLIMPSE é um benchmark projetado para avaliar se grandes modelos de visão-linguagem (LVLMs) conseguem compreender e raciocinar profundamente sobre vídeos inteiros. Para resolver o problema de que critérios existentes de avaliação de vídeo permitem responder apenas com alguns frames-chave, dificultando a avaliação da verdadeira capacidade de raciocínio espaço-temporal dos modelos, o GLIMPSE inclui 3.269 vídeos, 11 categorias e mais de 4.342 perguntas centradas em aspectos visuais. Essas perguntas foram projetadas para que só possam ser respondidas assistindo ao vídeo inteiro e pensando de forma integrada, e nas avaliações humanas mostraram alta precisão de 94,82%. Em contrapartida, até mesmo o GPT-o3, o LVLM com melhor desempenho atual, ficou em apenas 66,43%, mostrando que os modelos ainda têm dificuldade em ir além de uma análise superficial para alcançar um raciocínio profundo baseado em vídeo.

Resumo do artigo (Abstract)

Os benchmarks de vídeo existentes muitas vezes se parecem com benchmarks baseados em imagem, com tipos de pergunta como “Quais ações a pessoa realiza ao longo do vídeo?” ou “Qual é a cor do vestido da mulher no vídeo?”. Nesses casos, os modelos frequentemente conseguem responder examinando apenas alguns quadros-chave, sem necessidade de raciocínio temporal profundo. Isso limita nossa capacidade de avaliar se grandes modelos de visão-linguagem (LVLMs) conseguem realmente pensar com vídeos, em vez de realizar uma análise superficial em nível de quadro. Para resolver isso, propomos o GLIMPSE, um benchmark projetado especificamente para avaliar se os LVLMs conseguem de fato pensar com vídeos. Diferentemente dos benchmarks anteriores, o GLIMPSE enfatiza uma compreensão abrangente de vídeo para além de pistas de imagem estática. Ele é composto por 3.269 vídeos e mais de 4.342 perguntas altamente centradas no visual, distribuídas em 11 categorias, incluindo Análise de Trajetória, Raciocínio Temporal e Detecção Forense. Todas as perguntas foram cuidadosamente elaboradas por anotadores humanos e exigem assistir ao vídeo inteiro e raciocinar sobre todo o contexto do vídeo — é isso que queremos dizer com pensar com vídeo. Essas perguntas não podem ser respondidas examinando quadros selecionados ou confiando apenas no texto. Em avaliações humanas, o GLIMPSE atinge 94,82% de acurácia, mas os LVLMs atuais enfrentam desafios significativos. Até mesmo o modelo com melhor desempenho, o GPT-o3, alcança apenas 66,43%, destacando que os LVLMs ainda têm dificuldade para ir além do raciocínio superficial e realmente pensar com vídeos.

Existing video benchmarks often resemble image-based benchmarks, with question types like "What actions does the person perform throughout the video?" or "What color is the woman's dress in the video?" For these, models can often answer by scanning just a few key frames, without deep temporal reasoning. This limits our ability to assess whether large vision-language models (LVLMs) can truly think with videos rather than perform superficial frame-level analysis. To address this, we introduce GLIMPSE, a benchmark specifically designed to evaluate whether LVLMs can genuinely think with videos. Unlike prior benchmarks, GLIMPSE emphasizes comprehensive video understanding beyond static image cues. It consists of 3,269 videos and over 4,342 highly visual-centric questions across 11 categories, including Trajectory Analysis, Temporal Reasoning, and Forensics Detection. All questions are carefully crafted by human annotators and require watching the entire video and reasoning over full video context-this is what we mean by thinking with video. These questions cannot be answered by scanning selected frames or relying on text alone. In human evaluations, GLIMPSE achieves 94.82% accuracy, but current LVLMs face significant challenges. Even the best-performing model, GPT-o3, reaches only 66.43%, highlighting that LVLMs still struggle to move beyond surface-level reasoning to truly think with videos.

Link do artigo

https://arxiv.org/abs/2507.09491

Compreensão infinita de vídeo / Infinite Video Understanding

Introdução do artigo

Avanços recentes em grandes modelos de linguagem (LLMs) e modelos de extensão multimodal (MLLMs) melhoraram significativamente as tecnologias de compreensão de vídeo, mas ainda existem limitações de computação e memória para processar vídeos longos, de vários minutos a várias horas ou mais. Estudos anteriores propuseram arquiteturas eficientes (Video-XL-2) e técnicas de codificação posicional para percepção espaço-temporal de longo prazo (HoPE, VideoRoPE++), mas a manutenção da consistência temporal em sequências longas, o rastreamento de eventos complexos e a preservação de informações detalhadas continuam sendo desafios em aberto. Este artigo apresenta a “compreensão infinita de vídeo” (Infinite Video Understanding), capaz de processar e compreender continuamente vídeos de comprimento infinito, como um objetivo central para pesquisas futuras, e propõe diversas direções inovadoras de pesquisa para isso, como arquiteturas de streaming, memória persistente, representações hierárquicas e adaptativas, raciocínio centrado em eventos e novas metodologias de avaliação. Espera-se que essa direção impulsione uma mudança de paradigma no processamento de vídeos de longa duração em toda a área de multimídia e inteligência artificial.

Resumo(Abstract)

Os avanços rápidos dos grandes modelos de linguagem (LLMs) e de suas extensões multimodais (MLLMs) trouxeram progressos notáveis para a compreensão de vídeo. No entanto, um desafio fundamental ainda permanece: processar e compreender de forma eficaz conteúdos de vídeo que se estendem por minutos ou horas. Embora trabalhos recentes, como o Video-XL-2, tenham apresentado novas soluções arquiteturais para eficiência extrema, e avanços em codificação posicional, como HoPE e VideoRoPE++, busquem melhorar a compreensão espaço-temporal em contextos extensos, os modelos de ponta atuais ainda enfrentam limitações significativas de computação e memória ao lidar com o enorme volume de tokens visuais gerados por sequências longas. Além disso, manter a coerência temporal, rastrear eventos complexos e preservar detalhes refinados por longos períodos continuam sendo desafios difíceis de resolver, apesar dos avanços em sistemas de raciocínio baseados em agentes, como o Deep Video Discovery. Este documento técnico propõe a Compreensão Infinita de Vídeo (Infinite Video Understanding) como a próxima área de pesquisa, ao mesmo tempo lógica e ambiciosa, para a pesquisa em multimídia. Isso se refere à capacidade de um modelo processar, compreender e raciocinar continuamente sobre dados de vídeo de duração arbitrária, potencialmente infinita. Defendemos que definir a Compreensão Infinita de Vídeo como um objetivo de pesquisa blue-sky servirá como uma bússola importante para a comunidade de pesquisa em multimídia e para a comunidade mais ampla de IA, promovendo inovação em áreas como arquiteturas de streaming, mecanismos de memória persistente, representações hierárquicas e adaptativas, raciocínio centrado em eventos e novos paradigmas de avaliação. Inspirado por pesquisas recentes sobre compreensão de vídeos longos/ultralongos e áreas intimamente relacionadas, este artigo apresenta uma visão geral dos principais desafios e das direções centrais de pesquisa para alcançar essa capacidade transformadora.

The rapid advancements in Large Language Models (LLMs) and their multimodal extensions (MLLMs) have ushered in remarkable progress in video understanding. However, a fundamental challenge persists: effectively processing and comprehending video content that extends beyond minutes or hours. While recent efforts like Video-XL-2 have demonstrated novel architectural solutions for extreme efficiency, and advancements in positional encoding such as HoPE and VideoRoPE++ aim to improve spatio-temporal understanding over extensive contexts, current state-of-the-art models still encounter significant computational and memory constraints when faced with the sheer volume of visual tokens from lengthy sequences. Furthermore, maintaining temporal coherence, tracking complex events, and preserving fine-grained details over extended periods remain formidable hurdles, despite progress in agentic reasoning systems like Deep Video Discovery. This position paper posits that a logical, albeit ambitious, next frontier for multimedia research is Infinite Video Understanding -- the capability for models to continuously process, understand, and reason about video data of arbitrary, potentially never-ending duration. We argue that framing Infinite Video Understanding as a blue-sky research objective provides a vital north star for the multimedia, and the wider AI, research communities, driving innovation in areas such as streaming architectures, persistent memory mechanisms, hierarchical and adaptive representations, event-centric reasoning, and novel evaluation paradigms. Drawing inspiration from recent work on long/ultra-long video understanding and several closely related fields, we outline the core challenges and key research directions towards achieving this transformative capability.

Link do artigo

https://arxiv.org/abs/2507.09068

O raciocínio Chain-of-Thought de grandes modelos de linguagem é uma miragem? Uma reflexão sob a lente da distribuição de dados / Is Chain-of-Thought Reasoning of LLMs a Mirage? A Data Distribution Lens

Apresentação do artigo

O prompt Chain-of-Thought (CoT) contribui para melhorar o desempenho de grandes modelos de linguagem (LLMs), mas levanta a possibilidade de que o raciocínio CoT seja, na prática, superficial. Este estudo analisa o raciocínio CoT pela perspectiva da distribuição de dados e revela que o CoT é um caminho gerado condicionalmente por um viés indutivo (inductive bias) baseado na distribuição presente nos dados de treinamento. Para isso, os autores treinaram LLMs em um ambiente controlado chamado DataAlchemy e validaram experimentalmente diferenças de distribuição em três dimensões: tipo de tarefa, comprimento e formato. Como resultado, confirmam que o raciocínio CoT é um fenômeno instável que se desfaz facilmente quando sai da distribuição de treinamento, destacando a dificuldade de alcançar um raciocínio genuíno e generalizável.

Resumo do artigo (Abstract)

Os prompts de Chain-of-Thought (CoT) são conhecidos por melhorar a capacidade dos grandes modelos de linguagem (LLMs) em executar diversas tarefas. Com essa abordagem, os LLMs parecem gerar etapas de raciocínio semelhantes às humanas antes de fornecer respostas (ou seja, raciocínio CoT), o que muitas vezes leva à percepção de que o modelo realiza um processo deliberado de raciocínio. No entanto, resultados iniciais sugerem que o raciocínio CoT pode ser mais superficial do que parece, motivando uma investigação adicional. Neste artigo, estudamos o raciocínio CoT sob a perspectiva da distribuição de dados e investigamos se ele reflete um viés indutivo estruturado aprendido a partir de dados dentro da distribuição (in-distribution data), permitindo ao modelo gerar condicionalmente caminhos de raciocínio que aproximam aqueles observados durante o treinamento. Assim, a eficácia do raciocínio CoT é fundamentalmente limitada pelo grau de discrepância de distribuição entre os dados de treinamento e as consultas de teste. A partir dessa perspectiva, analisamos o raciocínio CoT em três dimensões: tarefa (task), comprimento (length) e formato (format). Para investigar cada dimensão, projetamos o DataAlchemy, um ambiente isolado e controlado para treinar LLMs do zero e sondá-los sistematicamente sob várias condições de distribuição. Os resultados experimentais revelam que o raciocínio CoT é uma miragem frágil que desaparece quando sai da distribuição de treinamento. Este estudo oferece uma compreensão mais profunda de por que e quando o raciocínio CoT falha, destacando o desafio contínuo de alcançar um raciocínio genuíno e generalizável.

Foi demonstrado que os prompts de Chain-of-Thought (CoT) melhoram o desempenho de Large Language Models (LLMs) em várias tarefas. Com essa abordagem, os LLMs parecem produzir etapas de raciocínio semelhantes às humanas antes de fornecer respostas (também conhecido como raciocínio CoT), o que frequentemente leva à percepção de que eles se engajam em processos inferenciais deliberados. No entanto, alguns achados iniciais sugerem que o raciocínio CoT pode ser mais superficial do que parece, motivando-nos a explorar mais a fundo. Neste artigo, estudamos o raciocínio CoT a partir da ótica da distribuição de dados e investigamos se o raciocínio CoT reflete um viés indutivo estruturado aprendido a partir de dados dentro da distribuição, permitindo ao modelo gerar condicionalmente trajetórias de raciocínio que aproximam aquelas vistas durante o treinamento. Assim, sua eficácia é fundamentalmente limitada pelo grau de discrepância de distribuição entre os dados de treinamento e as consultas de teste. Com essa ótica, dissecamos o raciocínio CoT em três dimensões: tarefa, comprimento e formato. Para investigar cada dimensão, projetamos o DataAlchemy, um ambiente isolado e controlado para treinar LLMs do zero e sondá-los sistematicamente sob várias condições de distribuição. Nossos resultados revelam que o raciocínio CoT é uma miragem frágil que desaparece quando é levado além das distribuições de treinamento. Este trabalho oferece uma compreensão mais profunda de por que e quando o raciocínio CoT falha, enfatizando o desafio contínuo de alcançar um raciocínio genuíno e generalizável.

Link do artigo

https://arxiv.org/abs/2508.01191

Limitações enfrentadas pelos grandes modelos de linguagem / The wall confronting large language models

Apresentação do artigo

O artigo aponta que as leis de escalonamento que determinam o desempenho dos grandes modelos de linguagem (LLMs) apresentam sérias limitações para melhorar a incerteza preditiva. Destaca que o mecanismo de geração de distribuições de saída não gaussianas, que sustenta a capacidade de aprendizado dos LLMs, pode ser a causa do acúmulo de erros, do colapso de informação e de comportamentos degenerativos de IA. Além disso, ressalta que correlações espúrias que aumentam rapidamente com o crescimento do volume de dados agravam esses problemas, o que dificulta garantir confiabilidade científica. Enfatiza também que, para reconhecer e evitar a possibilidade de trajetórias degenerativas de IA, é essencial ter uma visão profunda e uma compreensão das características estruturais do problema.

Resumo do artigo (Abstract)

Este artigo mostra que as leis de escala que determinam o desempenho dos grandes modelos de linguagem (LLMs) limitam severamente sua capacidade de melhorar a incerteza de suas previsões. Como resultado, sugere que elevar sua confiabilidade para atender aos padrões da investigação científica é um problema intratável por qualquer medida razoável. Argumentamos que o próprio mecanismo central do poder de aprendizado dos LLMs — isto é, a capacidade de gerar distribuições de saída não gaussianas a partir de distribuições de entrada gaussianas — pode, na verdade, estar na raiz da propensão a produzir acúmulo de erros, catástrofes de informação e comportamento degenerativo de IA. Essa tensão entre aprendizado e precisão é uma forte candidata a mecanismo fundamental por trás dos baixos valores observados dos componentes de escala. Além disso, como apontaram Calude e Longo, a enxurrada de correlações espúrias que aumenta rapidamente apenas em função do tamanho dos dados, independentemente de sua natureza, agrava ainda mais esse problema. O fato de um caminho degenerativo de IA ser uma característica muito provável no cenário dos LLMs não significa que ele inevitavelmente precise surgir em toda pesquisa futura em IA. Como discutido neste artigo, evitá-lo exige dar um valor muito maior ao insight e à compreensão das características estruturais dos problemas investigados.

We show that the scaling laws which determine the performance of large language models (LLMs) severely limit their ability to improve the uncertainty of their predictions. As a result, raising their reliability to meet the standards of scientific inquiry is intractable by any reasonable measure. We argue that the very mechanism which fuels much of the learning power of LLMs, namely the ability to generate non-Gaussian output distributions from Gaussian input ones, might well be at the roots of their propensity to produce error pileup, ensuing information catastrophes and degenerative AI behaviour. This tension between learning and accuracy is a likely candidate mechanism underlying the observed low values of the scaling components. It is substantially compounded by the deluge of spurious correlations pointed out by Calude and Longo which rapidly increase in any data set merely as a function of its size, regardless of its nature. The fact that a degenerative AI pathway is a very probable feature of the LLM landscape does not mean that it must inevitably arise in all future AI research. Its avoidance, which we also discuss in this paper, necessitates putting a much higher premium on insight and understanding of the structural characteristics of the problems being investigated.

Link do artigo

https://arxiv.org/abs/2507.19703

Vetores de Persona: Monitoramento e Controle de Traços de Personalidade em Modelos de Linguagem / Persona Vectors: Monitoring and Controlling Character Traits in Language Models

Apresentação do artigo

A persona de "assistente" dos grandes modelos de linguagem costuma ser treinada para ser gentil, honesta e inofensiva, mas às vezes se desvia desses ideais. Neste estudo, foram identificados vetores de persona no espaço de ativações do modelo associados a diversos traços de personalidade, como malícia, bajulação e tendência a alucinar, mostrando que eles podem ser usados para monitorar mudanças de persona durante a implantação. Além disso, foi demonstrado que, com o uso de vetores de persona, é possível prever e controlar mudanças intencionais e não intencionais de personalidade durante o ajuste fino (finetuning), e que essas mudanças podem ser mitigadas ou evitadas por meio de intervenção posterior (post-hoc intervention) ou ajuste preventivo (preventative steering). Também foi mostrado que os vetores de persona podem ser usados para identificar amostras de dados de treinamento capazes de provocar mudanças indesejáveis de personalidade, além de constituírem um método geral que pode ser extraído automaticamente apenas com descrições em linguagem natural.

Resumo do artigo (Abstract)

Grandes modelos de linguagem interagem com os usuários por meio de uma persona simulada de “Assistente”. Embora o Assistente normalmente seja treinado para ser útil, inofensivo e honesto, às vezes ele se desvia desses ideais. Neste artigo, identificamos direções no espaço de ativações do modelo — vetores de persona — subjacentes a vários traços, como malícia, bajulação e propensão a alucinar. Confirmamos que esses vetores podem ser usados para monitorar flutuações na personalidade do Assistente no momento da implantação. Em seguida, aplicamos vetores de persona para prever e controlar mudanças de personalidade que ocorrem durante o treinamento. Descobrimos que tanto mudanças intencionais quanto não intencionais de personalidade após o ajuste fino (finetuning) estão fortemente correlacionadas com deslocamentos ao longo dos vetores de persona relevantes. Esses deslocamentos podem ser mitigados por meio de intervenção posterior (post-hoc intervention) ou evitados desde o início com um novo método de ajuste preventivo (preventative steering). Além disso, vetores de persona podem ser usados para sinalizar dados de treinamento que produzirão mudanças indesejáveis de personalidade, tanto no nível do conjunto de dados quanto no nível de amostras individuais. Nosso método de extração de vetores de persona é automatizado e pode ser aplicado a qualquer traço de personalidade de interesse, dado apenas uma descrição em linguagem natural.

Large language models interact with users through a simulated 'Assistant' persona. While the Assistant is typically trained to be helpful, harmless, and honest, it sometimes deviates from these ideals. In this paper, we identify directions in the model's activation space-persona vectors-underlying several traits, such as evil, sycophancy, and propensity to hallucinate. We confirm that these vectors can be used to monitor fluctuations in the Assistant's personality at deployment time. We then apply persona vectors to predict and control personality shifts that occur during training. We find that both intended and unintended personality changes after finetuning are strongly correlated with shifts along the relevant persona vectors. These shifts can be mitigated through post-hoc intervention, or avoided in the first place with a new preventative steering method. Moreover, persona vectors can be used to flag training data that will produce undesirable personality changes, both at the dataset level and the individual sample level. Our method for extracting persona vectors is automated and can be applied to any personality trait of interest, given only a natural-language description.

Link do artigo

https://arxiv.org/abs/2507.21509

[2025/08/18 ~ 24] Coletânea de artigos de AI/ML para acompanhar nesta semana