ML para acompanhar nesta semana

(discuss.pytorch.kr)

10 pontos por ninebow 2025-12-29 | Ainda não há comentários. | Compartilhar no WhatsApp

[2025/12/22 ~ 28] Coletânea de artigos de AI/ML para acompanhar nesta semana

PyTorchKR🔥🇰🇷 🤔💭

1️⃣ Detecção profunda de alucinações e estratégias de mitigação (Deep Hallucination Detection & Mitigation): Ao observar os artigos selecionados desta semana, fica evidente uma tentativa de ir além de simplesmente aumentar o tamanho dos modelos e resolver de forma mais fundamental o problema crônico de alucinação (Hallucination) dos LLMs. O QuCo-RAG determina o momento da recuperação usando um indicador objetivo — as estatísticas dos dados de pré-treinamento — em vez da confiança subjetiva interna do modelo, enquanto o H-Neurons adota uma abordagem microscópica ao identificar neurônios específicos que provocam alucinações e rastrear sua origem. Além disso, o Model-First Reasoning reduz erros estruturais ao impor uma etapa explícita de modelagem antes da resolução do problema. Isso mostra que a pesquisa em IA está evoluindo de simplesmente produzir “respostas plausíveis” para construir mecanismos verificáveis e confiáveis.

2️⃣ Evolução da eficiência de inferência e das tecnologias de processamento em tempo real (Evolution of Inference Efficiency & Real-Time Processing): À medida que os modelos ficam maiores, também cresce a pesquisa para maximizar a velocidade de inferência e a eficiência de memória. O WorldPlay resolveu o trade-off entre velocidade e memória, tornando possível a geração de vídeo em tempo real, e o Jacobi Forcing elevou drasticamente a velocidade de inferência por meio de decodificação paralela, superando as limitações da geração sequencial (AR). Além disso, o qTTT apresentou uma nova abordagem que realiza um aprendizado leve na etapa de inferência para evitar a queda de desempenho (diluição de pontuação) ao lidar com contextos longos. Isso pode ser interpretado como um processo de otimização essencial para aplicar modelos de alto desempenho em nível de serviço real (Real-time application).

3️⃣ Fortalecimento da compreensão dinâmica do mundo e da capacidade de raciocínio estruturado (Enhanced Dynamic World Understanding & Structured Reasoning): Há uma forte tendência de ir além da análise de imagens ou textos estáticos para compreender o fluxo do tempo (4D) e estruturas físicas/lógicas. O 4D-RGPT tenta uma percepção 4D ao adicionar o eixo temporal ao espaço 3D para entender a dinâmica temporal dos vídeos, e o WorldPlay realiza modelagem do mundo mantendo consistência geométrica. O NEPA também busca ampliar a compreensão visual por meio da previsão de embeddings, em vez da restauração de pixels. Isso sugere que a IA está avançando além do simples pattern matching rumo a uma etapa em que internaliza, como os humanos, os “princípios de funcionamento do mundo”, incluindo leis físicas e relações lógicas de causalidade.

WorldPlay: rumo à consistência geométrica de longo prazo para modelagem interativa do mundo em tempo real / WorldPlay: Towards Long-Term Geometric Consistency for Real-Time Interactive World Modeling

Introdução ao artigo

O WorldPlay é um inovador modelo de difusão de vídeo em streaming para modelagem interativa do mundo em tempo real, desenvolvido com foco em resolver o trade-off entre velocidade e memória ao mesmo tempo em que mantém consistência geométrica de longo prazo. O modelo maximiza o desempenho por meio de três inovações principais. Primeiro, com Dual Action Representation, ele possibilita um controle robusto das ações em resposta à entrada do usuário, implementando movimentos fisicamente plausíveis em cenas de diferentes escalas. Segundo, o Reconstituted Context Memory contribui para manter a consistência de longo prazo ao reconstruir dinamicamente informações de quadros anteriores. Com isso, quadros antigos geometricamente importantes permanecem acessíveis, aumentando a eficiência de memória. Terceiro, ele introduz um novo método de destilação chamado Context Forcing, que melhora o desempenho de modelos conscientes de memória. Esse método alinha o contexto de memória entre os modelos professor e aluno, permitindo que o modelo aluno utilize de forma eficaz informações de longo prazo.

O WorldPlay gera vídeos 720p a 24 quadros por segundo e demonstra consistência superior em comparação com técnicas anteriores. O modelo foi bem-sucedido em atingir simultaneamente velocidade e consistência geométrica de longo prazo na geração de vídeo em tempo real, além de mostrar forte capacidade de generalização em diferentes cenas. Ele também permite reconstrução 3D de alta qualidade e oferece suporte a interações baseadas em prompts capazes de acionar eventos dinâmicos no mundo. Graças a essas características, o WorldPlay representa uma contribuição importante para a área de geração interativa de vídeo em tempo real e abre caminho para diversas aplicações futuras.

Resumo (Abstract)

Este artigo apresenta o WorldPlay, um modelo de difusão de vídeo em streaming que possibilita modelagem de mundo interativa em tempo real. O WorldPlay resolve o trade-off entre velocidade e memória que limita os métodos atuais, mantendo consistência geométrica de longo prazo. O WorldPlay se apoia em três inovações principais. 1) Usamos uma Representação Dual de Ação (Dual Action Representation) para permitir controle robusto das ações em resposta às entradas de teclado e mouse do usuário. 2) Para manter a consistência de longo prazo, nossa Memória de Contexto Reconstituída (Reconstituted Context Memory) reconstrói dinamicamente o contexto a partir de quadros anteriores e usa reenquadramento temporal para manter acessíveis quadros geometricamente importantes, mas muito antigos, mitigando de forma eficaz a atenuação da memória. 3) Também propomos o Context Forcing, um novo método de destilação projetado para modelos com consciência de memória. Ao alinhar o contexto de memória entre professor e aluno, preserva-se a capacidade do aluno de usar informações de longo alcance, possibilitando velocidade em tempo real enquanto evita a deriva de erro. Em conjunto, o WorldPlay consegue transmitir vídeo 720p de longo horizonte a 24 FPS com consistência superior em comparação com técnicas existentes, além de mostrar forte generalização em cenas diversas. A página do projeto e a demonstração online podem ser encontradas em: https://3d-models.hunyuan.tencent.com/world/ e https://3d.hunyuan.tencent.com/sceneTo3D.

This paper presents WorldPlay, a streaming video diffusion model that enables real-time, interactive world modeling with long-term geometric consistency, resolving the trade-off between speed and memory that limits current methods. WorldPlay draws power from three key innovations. 1) We use a Dual Action Representation to enable robust action control in response to the user's keyboard and mouse inputs. 2) To enforce long-term consistency, our Reconstituted Context Memory dynamically rebuilds context from past frames and uses temporal reframing to keep geometrically important but long-past frames accessible, effectively alleviating memory attenuation. 3) We also propose Context Forcing, a novel distillation method designed for memory-aware model. Aligning memory context between the teacher and student preserves the student's capacity to use long-range information, enabling real-time speeds while preventing error drift. Taken together, WorldPlay generates long-horizon streaming 720p video at 24 FPS with superior consistency, comparing favorably with existing techniques and showing strong generalization across diverse scenes. Project page and online demo can be found: https://3d-models.hunyuan.tencent.com/world/ and https://3d.hunyuan.tencent.com/sceneTo3D.

Link do artigo

https://arxiv.org/abs/2512.14614

QuCo-RAG: método para geração aumentada por recuperação dinâmica ao quantificar incerteza a partir dos dados de pré-treinamento / QuCo-RAG: Quantifying Uncertainty from the Pre-training Corpus for Dynamic Retrieval-Augmented Generation

Apresentação do artigo

O QuCo-RAG é uma metodologia inovadora que decide dinamicamente o momento de realizar busca durante o processo de geração de grandes modelos de linguagem (LLM), mitigando alucinações. As abordagens existentes dependiam de sinais internos do modelo, mas isso traz o problema de que os LLMs muitas vezes são mal calibrados e demonstram alta confiança em saídas incorretas. Para superar essa limitação, este estudo propõe um novo método que quantifica a incerteza com base em estatísticas objetivas calculadas a partir dos dados de pré-treinamento, em vez de usar confiança subjetiva.

A quantificação de incerteza do QuCo-RAG consiste em duas etapas principais. Na primeira, são identificadas entidades de baixa frequência que representam lacunas de conhecimento de cauda longa antes da geração. Na segunda, durante a geração, verifica-se a coocorrência de entidades nos dados de pré-treinamento, e quando a coocorrência é 0, isso sinaliza risco de alucinação. Essas duas etapas usam o Infini-gram para executar consultas com latência de milissegundos sobre 4 trilhões de tokens, acionando a busca em situações de alta incerteza.

Nos resultados experimentais, o QuCo-RAG alcançou ganhos de 5 a 12 pontos em exatidão (EM) em relação aos baselines de ponta usando o modelo OLMo-2 em benchmarks de perguntas e respostas (QA) multi-hop. Além disso, também foi transferido com eficácia para modelos com dados de pré-treinamento não oficiais (Llama, Qwen, GPT), melhorando o EM em até 14 pontos. Experimentos de generalização de domínio em QA biomédico validaram adicionalmente a robustez do QuCo-RAG.

O QuCo-RAG apresenta um novo paradigma para geração aumentada por recuperação dinâmica por meio de verificação baseada no corpus de pré-treinamento, e essa é uma abordagem independente do modelo que pode ser aplicada a diversos LLMs. Essa pesquisa contribui para reduzir o risco de alucinações e pretende explorar, no futuro, a possibilidade de aplicação em vários domínios.

Resumo do artigo (Abstract)

A geração aumentada por recuperação dinâmica (Dynamic Retrieval-Augmented Generation) determina de forma adaptativa quando recuperar informações durante a geração para mitigar alucinações em grandes modelos de linguagem (LLMs). No entanto, os métodos existentes dependem de sinais internos do modelo (por exemplo, logits, entropia), que são fundamentalmente pouco confiáveis porque os LLMs normalmente são mal calibrados e frequentemente exibem alta confiança em saídas errôneas. Propomos o QuCo-RAG, que muda de uma confiança subjetiva para estatísticas objetivas calculadas a partir dos dados de pré-treinamento. Nosso método quantifica a incerteza em duas etapas: (1) antes da geração, identificamos entidades de baixa frequência que indicam lacunas de conhecimento de cauda longa; (2) durante a geração, verificamos a coocorrência de entidades no corpus de pré-treinamento, em que ausência de coocorrência frequentemente sinaliza risco de alucinação. Ambas as etapas aproveitam o Infini-gram para consultas com latência de milissegundos sobre 4 trilhões de tokens, acionando a recuperação quando a incerteza é alta. Experimentos em benchmarks de QA multi-hop mostram que o QuCo-RAG alcança ganhos de EM de 5 a 12 pontos sobre baselines estado da arte com modelos OLMo-2, e transfere de forma eficaz para modelos com dados de pré-treinamento não divulgados (Llama, Qwen, GPT), melhorando o EM em até 14 pontos. A generalização de domínio em QA biomédico valida ainda mais a robustez do nosso paradigma. Esses resultados estabelecem a verificação fundamentada em corpus como um paradigma fundamentado e, na prática, agnóstico ao modelo para RAG dinâmico. Nosso código está disponível publicamente em https://github.com/ZhishanQ/QuCo-RAG.
> A geração aumentada por recuperação dinâmica determina de forma adaptativa quando recuperar informações durante a geração para mitigar alucinações em grandes modelos de linguagem (LLMs). No entanto, os métodos existentes dependem de sinais internos do modelo (por exemplo, logits, entropia), que são fundamentalmente pouco confiáveis porque os LLMs normalmente são mal calibrados e frequentemente exibem alta confiança em saídas errôneas. Propomos o QuCo-RAG, que muda de uma confiança subjetiva para estatísticas objetivas calculadas a partir dos dados de pré-treinamento. Nosso método quantifica a incerteza em duas etapas: (1) antes da geração, identificamos entidades de baixa frequência que indicam lacunas de conhecimento de cauda longa; (2) durante a geração, verificamos a coocorrência de entidades no corpus de pré-treinamento, em que ausência de coocorrência frequentemente sinaliza risco de alucinação. Ambas as etapas aproveitam o Infini-gram para consultas com latência de milissegundos sobre 4 trilhões de tokens, acionando a recuperação quando a incerteza é alta. Experimentos em benchmarks de QA multi-hop mostram que o QuCo-RAG alcança ganhos de EM de 5--12 pontos sobre baselines estado da arte com modelos OLMo-2, e transfere de forma eficaz para modelos com dados de pré-treinamento não divulgados (Llama, Qwen, GPT), melhorando o EM em até 14 pontos. A generalização de domínio em QA biomédico valida ainda mais a robustez do nosso paradigma. Esses resultados estabelecem a verificação fundamentada em corpus como um paradigma fundamentado e, na prática, agnóstico ao modelo para RAG dinâmico. Nosso código está disponível publicamente em https://github.com/ZhishanQ/QuCo-RAG.

Link do artigo

https://arxiv.org/abs/2512.19134

4D-RGPT: abordagem de destilação perceptual para compreensão 4D em nível de região / 4D-RGPT: Toward Region-level 4D Understanding via Perceptual Distillation

Introdução ao artigo

O 4D-RGPT é um modelo de linguagem multimodal de grande porte (MMLM) especializado, projetado para capturar de forma eficaz representações 4D a partir de entradas de vídeo. Os benchmarks existentes de perguntas e respostas sobre vídeo (VQA) em 3D e 4D concentram-se em cenas estáticas e carecem de prompts em nível de região, o que limitava a compreensão da dinâmica temporal. Para resolver esse problema, este estudo introduz um framework de treinamento inovador chamado destilação perceptual 4D (Perceptual 4D Distillation, P4D), permitindo uma percepção 4D abrangente ao transferir representações 4D de um modelo especialista congelado para o 4D-RGPT.

Também foi proposto um novo benchmark chamado R4D-Bench, que inclui prompts em nível de região para cenas dinâmicas com percepção de profundidade. O R4D-Bench foi construído por meio de um pipeline híbrido de automação e validação humana, com o objetivo de superar as limitações dos benchmarks existentes de VQA 4D não baseados em região. Esse benchmark inclui 9 categorias de perguntas para avaliar diversos aspectos da compreensão 4D, e cada categoria fornece um critério para avaliar de forma abrangente o desempenho dos MMLMs.

O formato de opções de pergunta exige a precisão necessária para que os MMLMs forneçam respostas corretas, o que é essencial para entender a posição e a orientação dos objetos. Essa abordagem melhora a capacidade de compreensão 4D dos MMLMs e possibilita uma avaliação mais profunda por meio de perguntas baseadas em região. Este estudo traz uma contribuição importante para superar as limitações dos sistemas VQA existentes e aprimorar a percepção 4D e a compreensão temporal por meio do 4D-RGPT e do R4D-Bench.

Resumo (Abstract)

Apesar dos avanços em grandes modelos de linguagem multimodais (MLLMs), sua capacidade de raciocinar sobre estruturas 3D e dinâmicas temporais ainda é limitada, restringida por uma percepção 4D fraca e por uma compreensão temporal insuficiente. Os benchmarks existentes de Video Question Answering (VQA) 3D e 4D também enfatizam cenas estáticas e carecem de prompting em nível de região. Para enfrentar esses problemas, apresentamos: (a) o 4D-RGPT, um MLLM especializado projetado para capturar representações 4D a partir de entradas de vídeo com percepção temporal aprimorada; (b) o Perceptual 4D Distillation (P4D), um framework de treinamento que transfere representações 4D de um modelo especialista congelado para o 4D-RGPT, visando uma percepção 4D abrangente; e (c) o R4D-Bench, um benchmark para cenas dinâmicas com percepção de profundidade e prompting em nível de região, construído por meio de um pipeline híbrido automatizado e validado por humanos. Nosso 4D-RGPT alcançou melhorias notáveis tanto nos benchmarks existentes de VQA 4D quanto no benchmark proposto R4D-Bench.
> Despite advances in Multimodal LLMs (MLLMs), their ability to reason over 3D structures and temporal dynamics remains limited, constrained by weak 4D perception and temporal understanding. Existing 3D and 4D Video Question Answering (VQA) benchmarks also emphasize static scenes and lack region-level prompting. We tackle these issues by introducing: (a) 4D-RGPT, a specialized MLLM designed to capture 4D representations from video inputs with enhanced temporal perception; (b) Perceptual 4D Distillation (P4D), a training framework that transfers 4D representations from a frozen expert model into 4D-RGPT for comprehensive 4D perception; and (c) R4D-Bench, a benchmark for depth-aware dynamic scenes with region-level prompting, built via a hybrid automated and human-verified pipeline. Our 4D-RGPT achieves notable improvements on both existing 4D VQA benchmarks and the proposed R4D-Bench benchmark.

Link do artigo

https://arxiv.org/abs/2512.17012

H-Neurons: um estudo sobre a existência, o impacto e a origem de neurônios associados a alucinações em grandes modelos de linguagem / H-Neurons: On the Existence, Impact, and Origin of Hallucination-Associated Neurons in LLMs

Apresentação do artigo

O problema das alucinações em grandes modelos de linguagem (LLMs) é um dos principais fatores que comprometem a confiabilidade dos modelos, referindo-se ao fenômeno em que eles geram saídas plausíveis, mas factualmente incorretas. Neste estudo, analisamos de forma sistemática a existência, o impacto e a origem de neurônios relacionados a alucinações, chamados de H-Neurons. No processo de identificação dos H-Neurons, demonstramos que um conjunto esparso de neurônios, correspondente a menos de 0,1% do total, pode prever de forma confiável a ocorrência de alucinações. Esses neurônios também mostraram forte capacidade de generalização em diversos cenários.

Em termos de impacto comportamental, descobrimos por meio de intervenções controladas que os H-Neurons estão causalmente ligados a comportamentos de conformidade excessiva. Isso sugere que os neurônios que contribuem para a ocorrência de alucinações não são simplesmente ativados por acaso, mas mantêm uma relação próxima com padrões comportamentais específicos. Quanto à origem, confirmamos que os H-Neurons se originam em modelos-base pré-treinados e que esses neurônios mantêm seu poder preditivo para a detecção de alucinações. Isso oferece um insight importante de que os H-Neurons são formados durante o processo inicial de aprendizagem do modelo.

Quanto à metodologia, para identificar com robustez os neurônios relacionados a alucinações, o estudo utilizou o dataset TriviaQA para construir um conjunto contrastivo de alta qualidade, capaz de distinguir saídas confiáveis de saídas alucinadas. Em seguida, foi treinado um classificador linear para quantificar a contribuição de cada neurônio, gerando assim rótulos binários que predizem a presença ou ausência de alucinação. Essa abordagem estabeleceu a base para avaliar com clareza o impacto funcional dos H-Neurons.

Por fim, este estudo contribui para a compreensão dos mecanismos neurais associados a alucinações em LLMs e fornece uma base importante para o desenvolvimento futuro de LLMs mais confiáveis. Essas descobertas oferecem insights essenciais para pesquisas voltadas a aumentar a confiabilidade dos LLMs e estabelecem fundamentos importantes para direções futuras de estudo.

Resumo do artigo (Abstract)

Grandes modelos de linguagem (LLMs) frequentemente geram alucinações, ou seja, saídas plausíveis, mas factualmente incorretas, o que compromete sua confiabilidade. Trabalhos anteriores examinaram as alucinações a partir de perspectivas macroscópicas, como dados de treinamento e objetivos, mas os mecanismos subjacentes em nível de neurônio permaneceram em grande parte inexplorados. Neste artigo, conduzimos uma investigação sistemática sobre neurônios associados a alucinações (H-Neurons) em LLMs sob três perspectivas: identificação, impacto comportamental e origem. Em relação à identificação, mostramos que um subconjunto notavelmente esparso de neurônios — menos de $0.1%$ do total — pode prever de forma confiável a ocorrência de alucinações, com forte generalização em cenários diversos. Em termos de impacto comportamental, intervenções controladas revelam que esses neurônios estão causalmente ligados a comportamentos de conformidade excessiva. Quanto à origem, rastreamos esses neurônios até os modelos-base pré-treinados e constatamos que eles permanecem preditivos para a detecção de alucinações, indicando que emergem durante o pré-treinamento. Nossas descobertas conectam padrões comportamentais macroscópicos a mecanismos neurais microscópicos, oferecendo insights para o desenvolvimento de LLMs mais confiáveis.
> Large language models (LLMs) frequently generate hallucinations -- plausible but factually incorrect outputs -- undermining their reliability. While prior work has examined hallucinations from macroscopic perspectives such as training data and objectives, the underlying neuron-level mechanisms remain largely unexplored. In this paper, we conduct a systematic investigation into hallucination-associated neurons (H-Neurons) in LLMs from three perspectives: identification, behavioral impact, and origins. Regarding their identification, we demonstrate that a remarkably sparse subset of neurons (less than $0.1%$ of total neurons) can reliably predict hallucination occurrences, with strong generalization across diverse scenarios. In terms of behavioral impact, controlled interventions reveal that these neurons are causally linked to over-compliance behaviors. Concerning their origins, we trace these neurons back to the pre-trained base models and find that these neurons remain predictive for hallucination detection, indicating they emerge during pre-training. Our findings bridge macroscopic behavioral patterns with microscopic neural mechanisms, offering insights for developing more reliable LLMs.

Link do artigo

https://arxiv.org/abs/2512.01797

A previsão da próxima embedding cria aprendizes de visão poderosos / Next-Embedding Prediction Makes Strong Vision Learners

Introdução do artigo

O aprendizado autossupervisionado (self-supervised learning) consolidou-se como uma metodologia importante para aprender representações a partir de grandes conjuntos de dados sem anotação, e recentemente diversas abordagens, como aprendizado contrastivo (contrastive learning) e autodestilação (self-distillation), vêm evoluindo. No entanto, esses métodos frequentemente exigem batches grandes ou memory banks, e objetivos de reconstrução (reconstruction objectives) com decodificadores leves também têm mostrado suas limitações. Como alternativa, foi proposto o aprendizado de representações preditivas (predictive representation learning), uma abordagem que prevê embeddings semânticas em vez de entradas brutas; nesse contexto, métodos como JEPA (Just-Embedding Predictive Autoregression) vêm ganhando destaque. Porém, o JEPA é centrado em representações e tem a limitação de gerar características que depois são consumidas separadamente por módulos downstream.

Nesse contexto, a abordagem proposta Next-Embedding Predictive Autoregression (NEPA) prevê embeddings de patches futuros condicionadas às embeddings de patches passados, usando mascaramento causal (causal masking) e a técnica de stop gradient. O foco do NEPA é treinar o modelo para executar diretamente a tarefa preditiva, em vez de apenas produzir características para tarefas downstream. A metodologia se baseia em uma arquitetura Transformer simples e apresenta alto desempenho com pré-treinamento no conjunto de dados ImageNet-1k. Em especial, chama a atenção o fato de manter desempenho forte mesmo sem reconstrução de pixels, tokens discretos, perda contrastiva ou cabeças específicas por tarefa.

Usando backbones ViT-B e ViT-L, o NEPA alcançou 83,8% e 85,3% de acurácia top-1 no ImageNet-1K, respectivamente, além de transferir de forma eficaz para a tarefa de segmentação semântica (semantic segmentation) no ADE20K. Esses resultados mostram que o NEPA pode contribuir para o aprendizado visual autossupervisionado como uma alternativa simples, escalável e potencialmente agnóstica à modalidade. O estudo do NEPA aponta a possibilidade de induzir diretamente comportamentos de tarefa por meio da predição e representa uma contribuição importante ao abrir caminho para aplicações futuras em várias tarefas de visão.

Resumo do artigo (Abstract)

Inspirados pelo sucesso do pré-treinamento generativo em linguagem natural, perguntamos se os mesmos princípios podem gerar aprendizes visuais autossupervisionados poderosos. Em vez de treinar modelos para produzir características para uso downstream, nós os treinamos para gerar embeddings a fim de executar diretamente tarefas preditivas. Este estudo explora essa mudança do aprendizado de representações para o aprendizado de modelos. Especificamente, os modelos são treinados para prever embeddings de patches futuros condicionados aos embeddings passados, usando mascaramento causal e stop gradient. Chamamos isso de Next-Embedding Predictive Autoregression (NEPA). Demonstramos que um Transformer simples pré-treinado no ImageNet-1k é eficaz quando a previsão da próxima embedding é seu único objetivo de aprendizado. Não há necessidade de reconstrução de pixels, tokens discretos, perda contrastiva ou cabeças específicas por tarefa. Essa formulação preserva simplicidade estrutural e escalabilidade sem exigir complexidade adicional de design. O NEPA alcança resultados fortes em várias tarefas, registrando 83,8% e 85,3% de acurácia top-1 no ImageNet-1K com backbones ViT-B e ViT-L, respectivamente, e transferindo-se de forma eficaz para segmentação semântica no ADE20K. Acreditamos que o pré-treinamento generativo a partir de embeddings oferece uma alternativa simples, escalável e potencialmente agnóstica à modalidade para o aprendizado visual autossupervisionado.
> Inspired by the success of generative pretraining in natural language, we ask whether the same principles can yield strong self-supervised visual learners. Instead of training models to output features for downstream use, we train them to generate embeddings to perform predictive tasks directly. This work explores such a shift from learning representations to learning models. Specifically, models learn to predict future patch embeddings conditioned on past ones, using causal masking and stop gradient, which we refer to as Next-Embedding Predictive Autoregression (NEPA). We demonstrate that a simple Transformer pretrained on ImageNet-1k with next embedding prediction as its sole learning objective is effective - no pixel reconstruction, discrete tokens, contrastive loss, or task-specific heads. This formulation retains architectural simplicity and scalability, without requiring additional design complexity. NEPA achieves strong results across tasks, attaining 83.8% and 85.3% top-1 accuracy on ImageNet-1K with ViT-B and ViT-L backbones after fine-tuning, and transferring effectively to semantic segmentation on ADE20K. We believe generative pretraining from embeddings provides a simple, scalable, and potentially modality-agnostic alternative to visual self-supervised learning.

Link do artigo

https://arxiv.org/abs/2512.16922

Agentes LLM com raciocínio model-first: reduzindo alucinações por meio de modelagem explícita do problema / Model-First Reasoning LLM Agents: Reducing Hallucinations through Explicit Problem Modeling

Introdução do artigo

Grandes modelos de linguagem (LLMs) tendem a apresentar altas taxas de violação de restrições e soluções inconsistentes em tarefas complexas de planejamento em múltiplas etapas. Estratégias existentes, como Chain-of-Thought (cadeia de pensamento) e ReAct (ação reativa), dependem de rastreamento implícito de estado e não conseguem superar essas limitações por carecerem de uma representação explícita do problema. Inspirado no planejamento clássico em inteligência artificial (IA), este estudo propõe um novo paradigma em duas etapas chamado Model-First Reasoning (MFR). Nessa abordagem, o LLM primeiro constrói um modelo explícito do problema e, em seguida, gera um plano de solução com base nele.

O MFR mostrou, em experimentos em vários domínios de planejamento, melhorias na conformidade com restrições e na qualidade das soluções. Em especial, sua eficácia foi demonstrada em áreas diversas, como gestão de agendas médicas, planejamento de rotas, alocação de recursos, quebra-cabeças lógicos e síntese procedural. Estudos de ablação destacaram que a etapa explícita de modelagem é essencial para esses resultados. Os achados sugerem que as falhas de planejamento dos LLMs decorrem principalmente de falhas de representação, e não de limitações de raciocínio em si, mas da insuficiência na representação do problema.

O MFR se divide em uma etapa de construção de um modelo explícito do problema e outra de geração da solução, definindo nesse processo entidades, variáveis de estado, ações e restrições. Essa modelagem explícita ajuda o LLM a compreender e resolver o problema de forma mais estruturada. O estudo fornece uma base para enfrentar falhas de representação em tarefas de planejamento e raciocínio baseadas em LLMs, trazendo uma contribuição importante para agentes de IA confiáveis. Todos os prompts, procedimentos de avaliação e conjuntos de dados das tarefas foram documentados para promover a reprodutibilidade e estabelecer uma base para pesquisas futuras.

Resumo do artigo (Abstract)

Grandes modelos de linguagem (LLMs) frequentemente têm dificuldade com tarefas complexas de planejamento em várias etapas, apresentando altas taxas de violação de restrições e soluções inconsistentes. Estratégias existentes, como Chain-of-Thought e ReAct, dependem de rastreamento implícito de estado e carecem de uma representação explícita do problema. Inspirados no planejamento clássico em IA, propomos o Model-First Reasoning (MFR), um paradigma de duas fases no qual o LLM primeiro constrói um modelo explícito do problema, definindo entidades, variáveis de estado, ações e restrições, antes de gerar um plano de solução. Em vários domínios de planejamento, incluindo escalonamento médico, planejamento de rotas, alocação de recursos, quebra-cabeças lógicos e síntese procedural, o MFR reduz violações de restrições e melhora a qualidade das soluções em comparação com Chain-of-Thought e ReAct. Estudos de ablação mostram que a fase de modelagem explícita é crítica para esses ganhos. Nossos resultados sugerem que muitas falhas de planejamento dos LLMs decorrem de deficiências de representação, e não de limitações de raciocínio, destacando a modelagem explícita como um componente-chave para agentes de IA robustos e interpretáveis. Todos os prompts, procedimentos de avaliação e conjuntos de dados de tarefas foram documentados para facilitar a reprodutibilidade.
> Large Language Models (LLMs) often struggle with complex multi-step planning tasks, showing high rates of constraint violations and inconsistent solutions. Existing strategies such as Chain-of-Thought and ReAct rely on implicit state tracking and lack an explicit problem representation. Inspired by classical AI planning, we propose Model-First Reasoning (MFR), a two-phase paradigm in which the LLM first constructs an explicit model of the problem, defining entities, state variables, actions, and constraints, before generating a solution plan. Across multiple planning domains, including medical scheduling, route planning, resource allocation, logic puzzles, and procedural synthesis, MFR reduces constraint violations and improves solution quality compared to Chain-of-Thought and ReAct. Ablation studies show that the explicit modeling phase is critical for these gains. Our results suggest that many LLM planning failures stem from representational deficiencies rather than reasoning limitations, highlighting explicit modeling as a key component for robust and interpretable AI agents. All prompts, evaluation procedures, and task datasets are documented to facilitate reproducibility.

Link do artigo

https://arxiv.org/abs/2512.14474

Não vamos simplesmente colocar as coisas no contexto: treinamento em tempo de teste para LLMs de contexto longo / Let's (not) just put things in Context: Test-Time Training for Long-Context LLMs

Apresentação do artigo

O avanço dos grandes modelos de linguagem (LLM) melhorou significativamente a capacidade de processar contextos longos, mas continua sendo importante resolver o problema de esses modelos não conseguirem, na prática, operar de forma eficaz em contextos extensos. Este estudo aponta que o método de gerar thinking tokens, usado por estratégias existentes em tempo de inferência para melhorar o desempenho, tem limitações devido ao problema de diluição de pontuação (score dilution). A diluição de pontuação ocorre por causa das características da autoatenção estática (static self-attention), o que reduz a precisão do modelo em contextos longos.

Para resolver esse problema, o estudo propõe uma nova metodologia chamada query-only test-time training (qTTT). O qTTT supera as limitações da autoatenção estática por meio de atualizações de gradiente direcionadas ao contexto fornecido, com o objetivo de melhorar o desempenho em contextos longos. Os resultados experimentais mostram que o qTTT oferece uma abordagem mais eficaz do que as estratégias existentes em tempo de inferência, levando, no modelo Qwen3-4B, a ganhos médios de desempenho de 12,6 e 14,1 pontos em subconjuntos dos benchmarks LongBench-v2 e ZeroScrolls.

Este trabalho destaca que, para melhorar o desempenho em contextos longos, é necessário um pequeno volume de treinamento especializado no contexto, o que representa um uso mais eficiente do cálculo de inferência. A introdução do qTTT apresenta uma forma prática de maximizar o desempenho de LLMs de contexto longo e deve indicar novas direções para pesquisas futuras sobre processamento de contextos longos. Essa abordagem inovadora tende a ampliar ainda mais as possibilidades de uso dos LLMs e a contribuir para melhorias de desempenho em diversas áreas de aplicação.

Resumo(Abstract)

Os avanços em treinamento e estratégias de arquitetura tornaram possíveis modelos de linguagem de grande porte (LLMs) com comprimentos de contexto longos, contendo milhões de tokens. No entanto, evidências empíricas sugerem que esses LLMs de longo contexto podem consumir muito mais texto do que conseguem usar de forma confiável. Por outro lado, foi demonstrado que a computação em tempo de inferência pode ser usada para escalar o desempenho de LLMs em tarefas desafiadoras com raciocínio em múltiplas etapas. Por meio de experimentos controlados em tarefas sandbox de longo contexto, constatou-se que essas estratégias em tempo de inferência apresentam retornos rapidamente decrescentes e falham em contextos longos. Atribuímos essas falhas à diluição de pontuação (score dilution), um fenômeno inerente à autoatenção estática. Além disso, mostramos que as estratégias atuais em tempo de inferência não conseguem recuperar sinais relevantes de longo contexto sob certas condições. Propomos um método simples que supera as limitações da autoatenção estática por meio de atualizações de gradiente direcionadas sobre o contexto fornecido. Verificamos que essa mudança na forma como a computação em tempo de inferência é utilizada leva, de maneira consistente, a grandes melhorias de desempenho em diferentes modelos e benchmarks de longo contexto. Nosso método gera grandes melhorias médias de 12,6 e 14,1 pontos percentuais para o Qwen3-4B em subconjuntos dos benchmarks LongBench-v2 e ZeroScrolls. A conclusão prática é a seguinte: para contextos longos, uma pequena quantidade de treinamento específico para o contexto é uma forma melhor de usar a computação de inferência do que as estratégias atuais de escalonamento em tempo de inferência, como produzir mais tokens de raciocínio.
> Progress on training and architecture strategies has enabled LLMs with millions of tokens in context length. However, empirical evidence suggests that such long-context LLMs can consume far more text than they can reliably use. On the other hand, it has been shown that inference-time compute can be used to scale performance of LLMs, often by generating thinking tokens, on challenging tasks involving multi-step reasoning. Through controlled experiments on sandbox long-context tasks, we find that such inference-time strategies show rapidly diminishing returns and fail at long context. We attribute these failures to score dilution, a phenomenon inherent to static self-attention. Further, we show that current inference-time strategies cannot retrieve relevant long-context signals under certain conditions. We propose a simple method that, through targeted gradient updates on the given context, provably overcomes limitations of static self-attention. We find that this shift in how inference-time compute is spent leads to consistently large performance improvements across models and long-context benchmarks. Our method leads to large 12.6 and 14.1 percentage point improvements for Qwen3-4B on average across subsets of LongBench-v2 and ZeroScrolls benchmarks. The takeaway is practical: for long context, a small amount of context-specific training is a better use of inference compute than current inference-time scaling strategies like producing more thinking tokens.

Link do artigo

https://arxiv.org/abs/2512.13898

Estabilizando o aprendizado por reforço com LLMs: formulação e práticas / Stabilizing Reinforcement Learning with LLMs: Formulation and Practices

Introdução do artigo

Embora o aprendizado por reforço (Reinforcement Learning, RL) tenha sido aplicado com sucesso em diversas áreas, o problema da instabilidade durante o treinamento continua sendo um desafio central. Este estudo propõe uma nova metodologia para aumentar a estabilidade do RL com o uso de modelos de linguagem de grande porte (Large Language Models, LLMs). Em particular, identifica as condições sob as quais é possível otimizar objetivos em nível de token que substituem recompensas em nível de sequência por meio do REINFORCE, um método de gradiente de política. Por meio de uma aproximação de primeira ordem, mostra que as condições para a validade desse objetivo alternativo são a minimização da discrepância entre treino e inferência e da obsolescência da política.

Essas percepções ajudam a explicar o impacto, na estabilização do treinamento em RL, de técnicas como correção por amostragem por importância, clipping e Routing Replay para modelos Mixture-of-Experts (MoE). Com experimentos que totalizaram milhões de horas de GPU usando um modelo MoE de 30B, os autores demonstraram que, no treinamento on-policy, o algoritmo básico de gradiente de política com correção por amostragem por importância atinge a maior estabilidade de treinamento. Além disso, ao introduzir atualizações off-policy para acelerar a convergência, o estudo destaca que a combinação de clipping e Routing Replay é essencial para mitigar a instabilidade causada pela obsolescência da política.

Depois que o treinamento é estabilizado, o trabalho mostra que a otimização contínua apresenta desempenho final consistente independentemente do método de inicialização. Esses resultados oferecem novos insights para o treinamento estável em RL e estabelecem uma base importante para pesquisas futuras. O artigo apresenta uma abordagem inovadora para estabilizar o aprendizado por reforço com o uso de LLMs e traz uma contribuição importante para resolver a instabilidade no treinamento em RL.

Resumo (Abstract)

Este artigo propõe uma nova formulação para aprendizado por reforço (RL) com grandes modelos de linguagem (LLM), explicando por que e em quais condições a verdadeira recompensa em nível de sequência pode ser otimizada por meio de um objetivo substituto em nível de token em métodos de gradiente de política como o REINFORCE. Especificamente, por meio de uma aproximação de primeira ordem, mostramos que esse substituto se torna cada vez mais válido apenas quando tanto a discrepância entre treinamento e inferência quanto a defasagem da política são minimizadas. Esse insight fornece uma explicação fundamentada para o papel crucial de várias técnicas amplamente adotadas na estabilização do treinamento de RL, incluindo correção por importance sampling, clipping e, em especial, Routing Replay para modelos Mixture-of-Experts (MoE). Por meio de extensos experimentos com um modelo MoE de 30B totalizando centenas de milhares de horas de GPU, mostramos que, no treinamento on-policy, o algoritmo básico de gradiente de política com correção por importance sampling alcança a maior estabilidade de treinamento. Quando atualizações off-policy são introduzidas para acelerar a convergência, a combinação de clipping e Routing Replay se torna essencial para mitigar a instabilidade causada pela defasagem da política. Notavelmente, uma vez estabilizado o treinamento, a otimização prolongada produz de forma consistente desempenho final comparável, independentemente da inicialização cold-start. Esperamos que os insights compartilhados e as receitas desenvolvidas para um treinamento estável de RL facilitem pesquisas futuras.
> This paper proposes a novel formulation for reinforcement learning (RL) with large language models, explaining why and under what conditions the true sequence-level reward can be optimized via a surrogate token-level objective in policy gradient methods such as REINFORCE. Specifically, through a first-order approximation, we show that this surrogate becomes increasingly valid only when both the training-inference discrepancy and policy staleness are minimized. This insight provides a principled explanation for the crucial role of several widely adopted techniques in stabilizing RL training, including importance sampling correction, clipping, and particularly Routing Replay for Mixture-of-Experts (MoE) models. Through extensive experiments with a 30B MoE model totaling hundreds of thousands of GPU hours, we show that for on-policy training, the basic policy gradient algorithm with importance sampling correction achieves the highest training stability. When off-policy updates are introduced to accelerate convergence, combining clipping and Routing Replay becomes essential to mitigate the instability caused by policy staleness. Notably, once training is stabilized, prolonged optimization consistently yields comparable final performance regardless of cold-start initialization. We hope that the shared insights and the developed recipes for stable RL training will facilitate future research.

Link do artigo

https://arxiv.org/abs/2512.01374

Decodificação paralela causal rápida e precisa usando Jacobi Forcing / Fast and Accurate Causal Parallel Decoding using Jacobi Forcing

Introdução ao artigo

Em meio ao avanço acelerado das pesquisas para melhorar a velocidade de inferência de grandes modelos de linguagem, este estudo propõe uma metodologia inovadora chamada Jacobi Forcing. Essa abordagem se concentra em possibilitar a decodificação paralela de modelos baseados em Transformer por meio da geração de múltiplos tokens, com o objetivo de minimizar a latência de inferência. As abordagens existentes de diffusion large language models (dLLMs) mostraram limitações no ganho de desempenho devido à incompatibilidade entre pre-training e post-training. Em particular, os dLLMs usam atenção bidirecional, o que entra em conflito com o prior causal e dificulta a reutilização precisa do KV cache.

O Jacobi Forcing é um paradigma de destilação gradual no qual o modelo aprende a partir de seu próprio caminho gerado de decodificação paralela, convertendo-se em um decodificador paralelo eficiente enquanto preserva as propriedades de inferência causal aprendidas no pre-training. O modelo Jacobi Forcing treinado com essa metodologia alcançou ganho de 3,8x em velocidade de wall-clock em benchmarks de código e matemática, ao mesmo tempo em que minimizou a perda de desempenho. Além disso, ao introduzir a decodificação em múltiplos blocos com rejection recycling, tornou-se possível obter uma taxa de aceitação de tokens até 4,5x maior em cada iteração, alcançando quase 4,0x de ganho em velocidade de wall-clock.

Este estudo apresenta, por meio do Jacobi Forcing, uma metodologia que possibilita uma decodificação paralela eficiente ao mesmo tempo em que preserva as propriedades de inferência causal de modelos AR, demonstrando o potencial de melhorar drasticamente a velocidade de inferência de grandes modelos de linguagem. Essa abordagem tem potencial para melhorar significativamente a eficiência de modelos na área de processamento de linguagem natural (NLP) e deve contribuir de forma importante para pesquisas futuras.

Resumo do artigo (Abstract)

A geração de múltiplos tokens surgiu como um paradigma promissor para acelerar a inferência de grandes modelos baseados em transformers. Esforços recentes exploram principalmente modelos de linguagem grandes por difusão (dLLMs) para decodificação paralela a fim de reduzir a latência de inferência. Para alcançar qualidade de geração em nível AR, muitas técnicas adaptam modelos AR em dLLMs para viabilizar a decodificação paralela. No entanto, elas sofrem com ganhos de velocidade limitados em comparação com modelos AR devido a uma discrepância entre pré-treinamento e pós-treinamento. Especificamente, a distribuição de dados mascarados no pós-treinamento se desvia significativamente da distribuição de dados do mundo real observada durante o pré-treinamento, e os dLLMs dependem de atenção bidirecional, o que entra em conflito com o prior causal aprendido no pré-treinamento e dificulta a integração do reúso exato de cache KV. Para resolver isso, introduzimos o Jacobi Forcing. Trata-se de um paradigma de destilação progressiva em que os modelos são treinados em suas próprias trajetórias geradas de decodificação paralela, deslocando suavemente modelos AR para decodificadores paralelos eficientes enquanto preservam sua propriedade causal de inferência aprendida no pré-treinamento. O modelo treinado sob esse paradigma, o Jacobi Forcing Model, alcança ganho de 3,8x em tempo de relógio em benchmarks de código e matemática com perda mínima de desempenho. Com base nas características de trajetória dos Jacobi Forcing Models, introduzimos a decodificação multi-bloco com reciclagem por rejeição, que permite até 4,5x mais aceitação de tokens por iteração e quase 4,0x de ganho em tempo de relógio, trocando efetivamente computação adicional por menor latência de inferência. Nosso código está disponível em https://github.com/hao-ai-lab/JacobiForcing.
> Multi-token generation has emerged as a promising paradigm for accelerating transformer-based large model inference. Recent efforts primarily explore diffusion Large Language Models (dLLMs) for parallel decoding to reduce inference latency. To achieve AR-level generation quality, many techniques adapt AR models into dLLMs to enable parallel decoding. However, they suffer from limited speedup compared to AR models due to a pretrain-to-posttrain mismatch. Specifically, the masked data distribution in post-training deviates significantly from the real-world data distribution seen during pretraining, and dLLMs rely on bidirectional attention, which conflicts with the causal prior learned during pretraining and hinders the integration of exact KV cache reuse. To address this, we introduce Jacobi Forcing, a progressive distillation paradigm where models are trained on their own generated parallel decoding trajectories, smoothly shifting AR models into efficient parallel decoders while preserving their pretrained causal inference property. The models trained under this paradigm, Jacobi Forcing Model, achieves 3.8x wall-clock speedup on coding and math benchmarks with minimal loss in performance. Based on Jacobi Forcing Models' trajectory characteristics, we introduce multi-block decoding with rejection recycling, which enables up to 4.5x higher token acceptance count per iteration and nearly 4.0x wall-clock speedup, effectively trading additional compute for lower inference latency. Our code is available at https://github.com/hao-ai-lab/JacobiForcing.

Link do artigo

https://arxiv.org/abs/2512.14681

Danos de grandes modelos de linguagem (LLM): uma taxonomia e discussão / LLM Harms: A Taxonomy and Discussion

Apresentação do artigo

Este é um estudo sobre categorias de danos relacionadas a grandes modelos de linguagem (LLMs). O trabalho apresenta cinco categorias de danos que podem ocorrer antes, durante e depois do desenvolvimento de aplicações de IA: pré-desenvolvimento, saída direta, uso indevido e aplicação maliciosa, e aplicações downstream. Ele enfatiza a necessidade de definir riscos no cenário atual e apresenta formas de gerenciar responsabilidade, transparência e vieses. Além disso, propõe estratégias de mitigação para domínios específicos e direções futuras, incluindo uma proposta padronizada para orientar um sistema dinâmico de auditoria voltado ao desenvolvimento e à integração responsáveis de LLMs.

Resumo do artigo (Abstract)

Este estudo aborda categorias de danos em torno dos grandes modelos de linguagem (LLMs) no campo da inteligência artificial. Ele trata de cinco categorias de danos abordadas antes, durante e depois do desenvolvimento de aplicações de IA: pré-desenvolvimento, saída direta, uso indevido e aplicação maliciosa, e aplicações downstream. Ao enfatizar a necessidade de definir os riscos do cenário atual para garantir responsabilidade, transparência e navegação por vieses ao adaptar LLMs para aplicações práticas. Também propõe estratégias de mitigação e direções futuras para domínios específicos, além de um sistema dinâmico de auditoria que orienta o desenvolvimento e a integração responsáveis de LLMs em uma proposta padronizada.
> This study addresses categories of harm surrounding Large Language Models (LLMs) in the field of artificial intelligence. It addresses five categories of harms addressed before, during, and after development of AI applications: pre-development, direct output, Misuse and Malicious Application, and downstream application. By underscoring the need to define risks of the current landscape to ensure accountability, transparency and navigating bias when adapting LLMs for practical applications. It proposes mitigation strategies and future directions for specific domains and a dynamic auditing system guiding responsible development and integration of LLMs in a standardized proposal.

Link do artigo

https://arxiv.org/abs/2512.05929

⚠️Publicidade⚠️: Este texto organizado pela 🔥Comunidade de usuários PyTorch da Coreia🇰🇷 foi útil para você? Se você se cadastrar como membro, enviaremos os principais textos por email💌! (O padrão é Weekly, mas também é possível mudar para Daily.)

[2025/12/22 ~ 28] Coletânea de artigos de AI/ML para acompanhar nesta semana