[2025/09/08 ~ 14] Coletânea de artigos de AI/ML para acompanhar nesta semana
(discuss.pytorch.kr)[2025/09/08 ~ 14] Coletânea de artigos de AI/ML para acompanhar nesta semana
PyTorchKR🔥🇰🇷 🤔💭
1️⃣ Alucinações em modelos de linguagem: pesquisas recentes destacam que grandes modelos de linguagem, quando estão incertos, tendem a chutar e gerar afirmações plausíveis, porém imprecisas, caracterizando o fenômeno de “alucinação”. Isso acontece porque os procedimentos de treinamento e avaliação tendem a recompensar o chute em vez do reconhecimento da incerteza, e os estudos defendem que o sistema de pontuação dos benchmarks existentes deve ser ajustado para lidar com esse problema.
2️⃣ Compreensão da estrutura semântica: vem crescendo o número de estudos que analisam como as relações semânticas são estruturadas na matriz de embeddings de grandes modelos de linguagem. Esses trabalhos destacam a descoberta de uma estrutura de baixa dimensionalidade semelhante à avaliação semântica humana e mostram que as projeções segundo direções semânticas das palavras apresentam alta correlação com avaliações humanas. Isso sugere que os modelos de linguagem processam informações semânticas de forma semelhante à linguagem humana.
3️⃣ Melhoria de capacidades avançadas de raciocínio com aprendizado por reforço: há intensa atividade de pesquisa buscando aprimorar a capacidade de raciocínio complexo de grandes modelos de linguagem com aprendizado por reforço (RL). Em especial, foram propostos métodos para aumentar a eficiência dos algoritmos de RL ajustando profundidade e largura, e foi demonstrado que isso desempenha um papel importante para o modelo explorar e dominar planejamento estratégico avançado. Essa abordagem tem sido desenvolvida por meio de novos paradigmas como RLVR (aprendizado por reforço com recompensas verificáveis).
Por que modelos de linguagem alucinam / Why Language Models Hallucinate (feat. OpenAI)
Introdução ao artigo
Grandes modelos de linguagem tendem a chutar a resposta em situações de incerteza, o que leva ao fenômeno de “alucinação”, no qual geram informações plausíveis, mas incorretas. Essas alucinações continuam sendo um problema mesmo nos modelos mais recentes e atuam como uma das principais causas de perda de confiabilidade. Este estudo aponta que a razão pela qual modelos de linguagem alucinam está no fato de que os procedimentos de treinamento e avaliação recompensam o chute em vez do reconhecimento da incerteza. Em particular, argumenta-se que as alucinações se originam de erros em classificação binária e surgem como uma pressão estatística natural quando afirmações incorretas não podem ser distinguidas de fatos.
Na etapa de pré-treinamento, os modelos de linguagem aprendem a distribuição da linguagem a partir de grandes volumes de texto, e nesse processo podem ocorrer erros. Esses erros são continuamente reforçados por métodos de avaliação que penalizam respostas incertas. Os pesquisadores destacam que os modelos de linguagem tendem a evitar demonstrar incerteza e a chutar para obter um bom desempenho em testes, e afirmam que essa tendência é uma das razões da persistência das alucinações.
Este artigo, publicado pela OpenAI, identifica as causas estatísticas das alucinações e analisa sua origem no pré-treinamento e sua persistência no pós-treinamento. Também propõe que a modificação dos métodos de avaliação atuais pode ser uma forma eficaz de mitigar o fenômeno das alucinações. Essa abordagem aponta um caminho para aumentar a confiabilidade dos modelos de linguagem e, mais adiante, avançar rumo a sistemas de inteligência artificial mais confiáveis. Os resultados do estudo podem servir como uma base importante para compreender e melhorar o fenômeno de alucinação em modelos de linguagem.
Resumo do artigo (Abstract)
Assim como estudantes diante de questões difíceis em uma prova, grandes modelos de linguagem, quando estão incertos, às vezes chutam e produzem afirmações plausíveis, porém incorretas, em vez de admitir a incerteza. Essas “alucinações” persistem mesmo nos sistemas mais avançados e prejudicam a confiança. Argumentamos que os modelos de linguagem alucinam porque os procedimentos de treinamento e avaliação recompensam o chute em vez do reconhecimento da incerteza, e analisamos as causas estatísticas das alucinações no pipeline moderno de treinamento. As alucinações não precisam ser misteriosas. Elas se originam simplesmente como erros em classificação binária. Se afirmações incorretas não puderem ser distinguidas de fatos, então alucinações em modelos de linguagem pré-treinados surgirão por pressões estatísticas naturais. Também argumentamos que as alucinações persistem por causa da forma como a maioria das avaliações é corrigida. Os modelos de linguagem são otimizados para serem bons fazedores de prova, e chutar quando estão incertos melhora o desempenho nesses testes. Essa “epidemia” de penalizar respostas incertas só pode ser enfrentada por meio de uma mitigação sociotécnica: modificar a pontuação dos benchmarks existentes, que estão desalinhados, mas dominam os leaderboards, em vez de introduzir avaliações adicionais de alucinação. Essa mudança pode orientar a área rumo a sistemas de IA mais confiáveis.
Like students facing hard exam questions, large language models sometimes guess when uncertain, producing plausible yet incorrect statements instead of admitting uncertainty. Such "hallucinations" persist even in state-of-the-art systems and undermine trust. We argue that language models hallucinate because the training and evaluation procedures reward guessing over acknowledging uncertainty, and we analyze the statistical causes of hallucinations in the modern training pipeline. Hallucinations need not be mysterious -- they originate simply as errors in binary classification. If incorrect statements cannot be distinguished from facts, then hallucinations in pretrained language models will arise through natural statistical pressures. We then argue that hallucinations persist due to the way most evaluations are graded -- language models are optimized to be good test-takers, and guessing when uncertain improves test performance. This "epidemic" of penalizing uncertain responses can only be addressed through a socio-technical mitigation: modifying the scoring of existing benchmarks that are misaligned but dominate leaderboards, rather than introducing additional hallucination evaluations. This change may steer the field toward more trustworthy AI systems.
Link do artigo
https://arxiv.org/abs/2509.04664
Estrutura semântica em embeddings de grandes modelos de linguagem / Semantic Structure in Large Language Model Embeddings
Introdução ao artigo
A estrutura de embeddings de grandes modelos de linguagem (LLMs) chama atenção por representar informações semânticas de maneira semelhante à cognição linguística humana. Com base em descobertas da psicologia, este estudo analisou as relações semânticas entre palavras na matriz de embeddings de LLMs e, com isso, investigou a correlação entre as avaliações humanas de palavras e as representações internas dos LLMs. Como resultado, foi constatado que, nos embeddings dos LLMs, as projeções das palavras podem ser reduzidas a três dimensões principais: valência (bom vs. ruim), intensidade (forte vs. fraco) e atividade (ativo vs. passivo).
O estudo comparou dados coletados por meio de uma pesquisa com 360 palavras e os embeddings dos LLMs, analisando quantitativamente a correlação entre a avaliação semântica humana e os embeddings dos modelos. Em especial, destacou-se que as características dos LLMs estão entrelaçadas entre si ao extrair direções de propriedades semânticas das palavras e medir efeitos off-target por meio de intervenções baseadas nelas. Essas descobertas sugerem que os embeddings dos LLMs refletem a complexidade da linguagem humana e que a informação semântica é relativamente de baixa dimensionalidade.
Além disso, o estudo enfatiza que medir a relação entre características individuais é importante para compreender o funcionamento interno dos LLMs, o que pode ter impacto positivo em segurança de IA e ajuste funcional. Essa abordagem também pode contribuir para evitar consequências não intencionais que podem surgir durante o processo de feature steering em LLMs. Este trabalho traz uma contribuição importante para entender a estrutura semântica dos LLMs e, com isso, compreender com mais clareza o comportamento dos modelos.
Resumo do artigo (Abstract)
Pesquisas em psicologia constatam de forma consistente que as avaliações humanas de palavras em diversas escalas semânticas podem ser reduzidas a uma forma de baixa dimensionalidade com relativamente pouca perda de informação. Descobrimos que as associações semânticas codificadas nas matrizes de embedding de grandes modelos de linguagem (LLMs) exibem uma estrutura semelhante. Mostramos que as projeções de palavras em direções semânticas definidas por pares de antônimos (por exemplo, gentil - cruel) têm alta correlação com avaliações humanas e, além disso, que essas projeções se reduzem de forma eficaz a um subespaço tridimensional dentro dos embeddings de LLMs. Isso se assemelha de perto aos padrões derivados de respostas de pesquisas com humanos. Também descobrimos que deslocar tokens ao longo de uma direção semântica provoca efeitos colaterais fora do alvo em características geometricamente alinhadas, proporcionais à sua similaridade de cosseno. Essas descobertas sugerem que as características semânticas estão entrelaçadas dentro dos LLMs de forma semelhante à maneira como se interconectam na linguagem humana, e que uma grande quantidade de informação semântica, apesar de sua aparente complexidade, é surpreendentemente de baixa dimensionalidade. Além disso, levar essa estrutura semântica em consideração pode ser essencial para evitar consequências não intencionais ao direcionar características.
> Psychological research consistently finds that human ratings of words across diverse semantic scales can be reduced to a low-dimensional form with relatively little information loss. We find that the semantic associations encoded in the embedding matrices of large language models (LLMs) exhibit a similar structure. We show that the projections of words on semantic directions defined by antonym pairs (e.g. kind - cruel) correlate highly with human ratings, and further find that these projections effectively reduce to a 3-dimensional subspace within LLM embeddings, closely resembling the patterns derived from human survey responses. Moreover, we find that shifting tokens along one semantic direction causes off-target effects on geometrically aligned features proportional to their cosine similarity. These findings suggest that semantic features are entangled within LLMs similarly to how they are interconnected in human language, and a great deal of semantic information, despite its apparent complexity, is surprisingly low-dimensional. Furthermore, accounting for this semantic structure may prove essential for avoiding unintended consequences when steering features.
Link do artigo
https://arxiv.org/abs/2508.10003
rStar2-Agent: documento técnico de raciocínio agentivo / rStar2-Agent: Agentic Reasoning Technical Report (feat. Microsoft)
Introdução ao artigo
O rStar2-Agent é um modelo de raciocínio matemático com 14 bilhões de parâmetros, projetado para alcançar desempenho de ponta por meio de aprendizado por reforço agentivo (agentic reinforcement learning). O modelo vai além das abordagens tradicionais de Long Chain-of-Thought (Long-CoT) e demonstra comportamentos cognitivos avançados em processos complexos de resolução de problemas. Em particular, ele é capaz de pensar com cuidado ao usar ferramentas de programação em Python e de explorar e verificar autonomamente etapas intermediárias, incorporando o feedback da execução do código. Essa inovação foi possibilitada por três elementos principais.
Primeiro, o rStar2-Agent constrói um ambiente confiável de código Python por meio de uma infraestrutura eficiente de RL, oferecendo suporte à execução de alta taxa de processamento. Essa infraestrutura foi projetada para permitir treinamento eficaz mesmo com recursos limitados de GPU, reduzindo o alto custo de rollout. Segundo, o algoritmo de RL agentivo chamado GRPO-RoC utiliza a estratégia de rollout Resample-on-Correct para lidar com o ruído ambiental das ferramentas de programação, permitindo que o modelo raciocine com mais eficácia no ambiente de código. Terceiro, uma receita eficiente de treinamento de agentes — que começa com SFT (Supervised Fine-Tuning) não voltado a raciocínio e avança por meio de RL em múltiplas etapas — oferece capacidades cognitivas avançadas com custo computacional mínimo.
Com essa metodologia, o rStar2-Agent elevou um modelo pré-treinado de 14 bilhões ao estado da arte em apenas 510 etapas de RL, alcançando pontuações pass@1 médias de 80,6% no AIME24 e 69,8% no AIME25. Isso demonstra desempenho superior ao DeepSeek-R1 (671B), além de reduzir significativamente o tempo de resposta. Além disso, o rStar2-Agent mostra forte capacidade de generalização não apenas em resolução de problemas matemáticos, mas também em tarefas de alinhamento, raciocínio científico e uso agentivo de ferramentas. Esses resultados mostram que a abordagem de RL agentivo contribui de forma importante para fortalecer comportamentos cognitivos em resolução de problemas complexos.
Resumo do artigo (Abstract)
Apresentamos o rStar2-Agent, um modelo de raciocínio matemático de 14B treinado com aprendizado por reforço agêntico para alcançar desempenho de nível de fronteira. Indo além das atuais longas cadeias de pensamento (CoT), o modelo demonstra comportamentos cognitivos avançados, como pensar cuidadosamente antes de usar ferramentas de programação em Python e refletir sobre o feedback da execução do código para explorar, verificar e refinar autonomamente etapas intermediárias em problemas complexos. Essa capacidade é possibilitada por três inovações principais que tornam o RL agêntico eficaz em escala: (i) uma infraestrutura eficiente de RL com um ambiente confiável de código Python que oferece suporte à execução de alta vazão e reduz os altos custos de rollout, permitindo o treinamento com recursos limitados de GPU (64 GPUs MI300X); (ii) GRPO-RoC, um algoritmo de RL agêntico com uma estratégia de rollout Resample-on-Correct que lida com os ruídos inerentes do ambiente gerados por ferramentas de código, permitindo que o modelo raciocine de forma mais eficaz em um ambiente de código; (iii) uma receita eficiente de treinamento de agentes que começa com SFT sem raciocínio e evolui por múltiplos estágios de RL, produzindo capacidades cognitivas avançadas com custo computacional mínimo. Para isso, o rStar2-Agent eleva um modelo pré-treinado de 14B ao estado da arte em apenas 510 etapas de RL, alcançando pontuações médias de pass@1 de 80,6% no AIME24 e 69,8% no AIME25, superando o DeepSeek-R1 (671B) com respostas significativamente mais curtas. Além da matemática, o rStar2-Agent-14B também demonstra forte capacidade de generalização em tarefas de alinhamento, raciocínio científico e uso agêntico de ferramentas. O código e a receita de treinamento estão disponíveis em https://github.com/microsoft/rStar.
> We introduce rStar2-Agent, a 14B math reasoning model trained with agentic reinforcement learning to achieve frontier-level performance. Beyond current long CoT, the model demonstrates advanced cognitive behaviors, such as thinking carefully before using Python coding tools and reflecting on code execution feedback to autonomously explore, verify, and refine intermediate steps in complex problem-solving. This capability is enabled through three key innovations that makes agentic RL effective at scale: (i) an efficient RL infrastructure with a reliable Python code environment that supports high-throughput execution and mitigates the high rollout costs, enabling training on limited GPU resources (64 MI300X GPUs); (ii) GRPO-RoC, an agentic RL algorithm with a Resample-on-Correct rollout strategy that addresses the inherent environment noises from coding tools, allowing the model to reason more effectively in a code environment; (iii) An efficient agent training recipe that starts with non-reasoning SFT and progresses through multi-RL stages, yielding advanced cognitive abilities with minimal compute cost. To this end, rStar2-Agent boosts a pre-trained 14B model to state of the art in only 510 RL steps within one week, achieving average pass@1 scores of 80.6% on AIME24 and 69.8% on AIME25, surpassing DeepSeek-R1 (671B) with significantly shorter responses. Beyond mathematics, rStar2-Agent-14B also demonstrates strong generalization to alignment, scientific reasoning, and agentic tool-use tasks. Code and training recipes are available at https://github.com/microsoft/rStar.
Link do artigo
https://arxiv.org/abs/2508.20722
Leia mais
https://github.com/microsoft/rStar
uGMM-NN: rede neural de modelo de mistura gaussiana univariada / uGMM-NN: Univariate Gaussian Mixture Model Neural Network
Introdução ao artigo
A rede neural de modelo de mistura gaussiana univariada (Univariate Gaussian Mixture Model Neural Network, uGMM-NN) é uma arquitetura inovadora que integra diretamente inferência probabilística às unidades computacionais de redes neurais profundas, adotando uma abordagem na qual cada neurônio parametriza sua própria ativação como uma mistura gaussiana univariada. Essa abordagem supera as limitações dos neurônios tradicionais baseados em soma ponderada e não linearidade fixa, permitindo capturar com eficácia multimodalidade e incerteza em neurônios individuais por meio de médias, variâncias e coeficientes de mistura aprendíveis. Esse desenho fornece ao modelo a flexibilidade necessária para aprender distribuições de dados complexas, mantendo a escalabilidade das redes feedforward padrão.
Em comparação com o tradicional perceptron multicamadas (Multilayer Perceptron, MLP), o uGMM-NN pode alcançar desempenho discriminativo competitivo, ao mesmo tempo em que possibilita uma interpretação probabilística das ativações. Com isso, o modelo passa a ter a capacidade de compreender e representar estruturas complexas dos dados, indo além de simples fronteiras de decisão. O framework proposto estabelece uma base para integrar componentes sensíveis à incerteza em arquiteturas neurais modernas, abrindo novas direções de pesquisa tanto para modelagem discriminativa quanto generativa.
A estrutura do uGMM-NN é composta de forma que cada neurônio represente sua ativação incluindo coeficientes de mistura, médias e variâncias, e esses elementos são otimizados durante o processo de aprendizado. Como método de treinamento, utiliza-se o algoritmo de retropropagação para atualizar os parâmetros, e a função de perda é projetada para minimizar a diferença entre as ativações de cada neurônio e os rótulos reais. Nesse processo, técnicas de otimização baseadas em gradiente são aplicadas para maximizar o desempenho do modelo.
Nos resultados experimentais, o uGMM-NN registrou maior acurácia do que o MLP existente em vários conjuntos de dados de benchmark, comprovando sua capacidade de lidar eficazmente com a incerteza. Esses resultados demonstram a superioridade do uGMM-NN e se tornam uma base importante que aponta a direção futura da modelagem sensível à incerteza. O estudo explora as possibilidades de aplicação em diversas áreas e leva a uma discussão sobre a escalabilidade do uGMM-NN e sua possibilidade de integração com outros modelos.
Resumo do artigo (Abstract)
Este artigo apresenta a Univariate Gaussian Mixture Model Neural Network (uGMM-NN), uma nova arquitetura neural que incorpora raciocínio probabilístico diretamente nas unidades computacionais de redes profundas. Diferentemente dos neurônios tradicionais, que aplicam somas ponderadas seguidas de não linearidades fixas, cada nó da uGMM-NN parametriza suas ativações como uma mistura gaussiana univariada, com médias, variâncias e coeficientes de mistura aprendíveis. Esse design permite representações mais ricas ao capturar multimodalidade e incerteza no nível de neurônios individuais, ao mesmo tempo em que mantém a escalabilidade das redes feedforward padrão. Mostramos que a uGMM-NN pode alcançar desempenho discriminativo competitivo em comparação com perceptrons multicamadas convencionais, além de oferecer uma interpretação probabilística das ativações. O framework proposto fornece uma base para integrar componentes sensíveis à incerteza em arquiteturas neurais modernas, abrindo novas direções tanto para modelagem discriminativa quanto generativa.
> This paper introduces the Univariate Gaussian Mixture Model Neural Network (uGMM-NN), a novel neural architecture that embeds probabilistic reasoning directly into the computational units of deep networks. Unlike traditional neurons, which apply weighted sums followed by fixed nonlinearities, each uGMM-NN node parameterizes its activations as a univariate Gaussian mixture, with learnable means, variances, and mixing coefficients. This design enables richer representations by capturing multimodality and uncertainty at the level of individual neurons, while retaining the scalability of standard feedforward networks. We demonstrate that uGMM-NN can achieve competitive discriminative performance compared to conventional multilayer perceptrons, while additionally offering a probabilistic interpretation of activations. The proposed framework provides a foundation for integrating uncertainty-aware components into modern neural architectures, opening new directions for both discriminative and generative modeling.
Link do artigo
https://arxiv.org/abs/2509.07569
Raciocínio hierárquico emergente em grandes modelos de linguagem por meio de aprendizado por reforço / Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning
Introdução ao artigo
A pesquisa para aprimorar as capacidades de raciocínio complexo dos grandes modelos de linguagem (LLMs) tem ganhado destaque recentemente como um tema importante na área de inteligência artificial. Neste estudo, explora-se como o aprendizado por reforço (Reinforcement Learning, RL) melhora essas capacidades dos LLMs, revelando que vários fenômenos observados nesse processo estão interligados. Em particular, experiências como o “momento aha” estão intimamente relacionadas ao pensamento estratégico de alto nível, o que é interpretado como uma característica de uma hierarquia de raciocínio emergente semelhante à separação entre planejamento de alto nível e execução de baixo nível nos processos cognitivos humanos.
O estudo apresenta uma dinâmica em duas etapas. Na fase inicial, o modelo é limitado pela precisão procedimental e precisa aprimorar habilidades de baixo nível. Depois, o gargalo de aprendizado muda, e a melhora de desempenho passa a ser impulsionada pela exploração e pelo domínio do planejamento estratégico de alto nível. Esse insight revela a ineficiência dos algoritmos de RL existentes, especialmente o GRPO (Generalized Reinforcement Policy Optimization), destacando que esse algoritmo aplica pressão de otimização de forma indiscriminada e acaba diluindo o sinal de aprendizado.
Para resolver esse problema, os autores propõem um novo algoritmo chamado HIerarchy-Aware Credit Assignment (HICRA). O HICRA concentra os esforços de otimização em tokens de planejamento de alto impacto, com foco em resolver gargalos estratégicos. O algoritmo mostra desempenho superior ao de baselines fortes, demonstrando que pode servir como chave para destravar raciocínio avançado. Além disso, os autores propõem a entropia semântica como um indicador superior para medir exploração estratégica, com desempenho melhor do que métricas potencialmente enganosas, como a entropia em nível de token.
Este estudo apresenta uma nova abordagem para aumentar a eficiência dos processos de aprendizado e raciocínio dos LLMs e enfatiza a necessidade de uma otimização focada no planejamento estratégico por meio do algoritmo HICRA. Espera-se que essas contribuições avancem ainda mais as capacidades de raciocínio complexo dos LLMs e sirvam como uma base importante para pesquisas futuras.
Resumo(Abstract)
O aprendizado por reforço (RL) já se mostrou extremamente eficaz para aprimorar as capacidades complexas de raciocínio dos grandes modelos de linguagem (LLMs), mas os mecanismos fundamentais por trás desse sucesso ainda permanecem pouco claros. Nossa análise revela que fenômenos intrigantes como “momentos aha”, “length-scaling” e a dinâmica da entropia não são ocorrências isoladas, mas características de uma hierarquia emergente de raciocínio, semelhante à separação entre planejamento estratégico de alto nível e execução procedural de baixo nível na cognição humana. Descobrimos uma dinâmica convincente de duas fases: no início, o modelo é limitado pela correção procedural e precisa aprimorar suas habilidades de baixo nível. Depois, o gargalo de aprendizado muda de forma decisiva, e os ganhos de desempenho passam a ser impulsionados pela exploração e pelo domínio do planejamento estratégico de alto nível. Esse insight expõe uma ineficiência central em algoritmos de RL predominantes como o GRPO, que aplicam pressão de otimização de forma indiferenciada e diluem o sinal de aprendizado em todos os tokens. Para resolver isso, propomos o algoritmo HIerarchy-Aware Credit Assignment (HICRA), que concentra os esforços de otimização nos tokens de planejamento de alto impacto. O HICRA supera significativamente baselines fortes, demonstrando que focar nesse gargalo estratégico é a chave para destravar um raciocínio avançado. Além disso, validamos a entropia semântica como uma bússola superior para medir a exploração estratégica, em comparação com métricas enganosas como a entropia em nível de token.
> Reinforcement Learning (RL) has proven highly effective at enhancing the complex reasoning abilities of Large Language Models (LLMs), yet underlying mechanisms driving this success remain largely opaque. Our analysis reveals that puzzling phenomena like aha moments", length-scaling'' and entropy dynamics are not disparate occurrences but hallmarks of an emergent reasoning hierarchy, akin to the separation of high-level strategic planning from low-level procedural execution in human cognition. We uncover a compelling two-phase dynamic: initially, a model is constrained by procedural correctness and must improve its low-level skills. The learning bottleneck then decisively shifts, with performance gains being driven by the exploration and mastery of high-level strategic planning. This insight exposes a core inefficiency in prevailing RL algorithms like GRPO, which apply optimization pressure agnostically and dilute the learning signal across all tokens. To address this, we propose HIerarchy-Aware Credit Assignment (HICRA), an algorithm that concentrates optimization efforts on high-impact planning tokens. HICRA significantly outperforms strong baselines, demonstrating that focusing on this strategic bottleneck is key to unlocking advanced reasoning. Furthermore, we validate semantic entropy as a superior compass for measuring strategic exploration over misleading metrics such as token-level entropy.
Link do artigo
https://arxiv.org/abs/2509.03646
OpenVision 2: família de encoders visuais generativos pré-treinados para aprendizado multimodal / OpenVision 2: A Family of Generative Pretrained Visual Encoders for Multimodal Learning (feat. Apple)
Introdução ao artigo
O OpenVision 2 propõe uma nova família de encoders visuais com pré-treinamento generativo para aprendizado multimodal, simplificando a arquitetura e o desenho de perda do OpenVision original para melhorar significativamente a eficiência do treinamento. Este estudo se baseia em trabalhos anteriores de pré-treinamento visão-linguagem, como CapPa e AIMv2, além de um design multimodal moderno, o LLaVA, adotando uma abordagem que remove o encoder de texto e mantém apenas a perda de legendagem. Essa estrutura simplificada é composta por dois módulos — um encoder de imagem e um decoder de texto — permitindo aprender representações visuais de forma eficaz por meio de sinais de aprendizado generativos.
Os resultados iniciais dos experimentos com o OpenVision 2 conseguiram manter o desempenho do modelo original, ao mesmo tempo em que reduziram bastante o tempo de treinamento e o consumo de memória. Por exemplo, ao usar o backbone ViT-L/14, o tempo de treinamento foi reduzido em 1,5x e o uso de memória caiu 1,8x, permitindo aumentar o tamanho máximo do batch de 2.000 para 8.000. Essas melhorias abrem a possibilidade de escalar o OpenVision 2 para mais de 1 bilhão de parâmetros e sugerem que um paradigma leve e exclusivamente generativo é atraente para o desenvolvimento de modelos fundacionais multimodais.
Este estudo convida a repensar a crença anterior de que o aprendizado contrastivo no estilo CLIP é essencial para construir encoders de visão. O OpenVision 2 mostra que objetivos puramente generativos podem competir com métodos contrastivos em desempenho multimodal, ao mesmo tempo em que reduzem significativamente o custo computacional e permitem escalar para modelos maiores. Os pesquisadores também passam a ter a oportunidade de explorar mais a fundo o potencial do pré-treinamento generativo de encoders visuais usando o conjunto completo de treinamento e os checkpoints pré-treinados do OpenVision 2. Essa inovação aponta uma nova direção para a área de aprendizado multimodal e deve contribuir de forma importante para pesquisas futuras.
Resumo(Abstract)
Este artigo apresenta uma forma de simplificar a arquitetura e o desenho de perda do OpenVision para melhorar sua eficiência de treinamento. Com base em trabalhos anteriores de pré-treinamento visão-linguagem, como CapPa e AIMv2, bem como em projetos multimodais modernos como o LLaVA, nossa mudança é simples: removemos o codificador de texto (e, portanto, a perda contrastiva), mantendo apenas a perda de legendagem como um sinal de treinamento puramente generativo. Chamamos essa nova versão de OpenVision 2. Os resultados iniciais são promissores: apesar dessa simplificação, o OpenVision 2 iguala de forma competitiva o desempenho do modelo original em uma ampla variedade de benchmarks multimodais, ao mesmo tempo em que reduz substancialmente tanto o tempo de treinamento quanto o consumo de memória. Por exemplo, com ViT-L/14, ele reduz o tempo de treinamento em cerca de 1,5x (de 83h para 57h) e o uso de memória em cerca de 1,8x (de 24,5GB para 13,8GB, permitindo de forma equivalente que o tamanho máximo do batch cresça de 2k para 8k). Essa eficiência superior de treinamento também nos permite escalar muito além do maior codificador de visão usado no OpenVision, alcançando mais de 1 bilhão de parâmetros. Acreditamos fortemente que esse paradigma leve e exclusivamente generativo é atraente para o futuro desenvolvimento de codificadores de visão em modelos fundamentais multimodais.
> This paper provides a simplification on OpenVision's architecture and loss design for enhancing its training efficiency. Following the prior vision-language pretraining works CapPa and AIMv2, as well as modern multimodal designs like LLaVA, our changes are straightforward: we remove the text encoder (and therefore the contrastive loss), retaining only the captioning loss as a purely generative training signal. We name this new version OpenVision 2. The initial results are promising: despite this simplification, OpenVision 2 competitively matches the original model's performance on a broad set of multimodal benchmarks while substantially cutting both training time and memory consumption. For example, with ViT-L/14, it reduces training time by about 1.5x (from 83h to 57h), and memory usage by about 1.8x (from 24.5GB to 13.8GB, equivalently allowing the maximum batch size to grow from 2k to 8k). This superior training efficiency also allows us to scale far beyond the largest vision encoder used in OpenVision, reaching more than 1 billion parameters. We hold a strong belief that this lightweight, generative-only paradigm is compelling for future vision encoder development in multimodal foundation models.
Link do artigo
https://arxiv.org/abs/2509.01644
Leia mais
https://ucsc-vlaa.github.io/OpenVision2
https://github.com/UCSC-VLAA/OpenVision
https://huggingface.co/collections/UCSC-VLAA/…
https://huggingface.co/datasets/UCSC-VLAA/Recap-DataComp-1B
Backprompting: uso de dados sintéticos de produção para guardrails de conselhos de saúde / Backprompting: Leveraging Synthetic Production Data for Health Advice Guardrails (feat. IBM Research)
Apresentação do artigo
À medida que o uso de grandes modelos de linguagem (LLMs) se expande no ambiente corporativo, diversos fatores de risco relacionados a eles vêm ganhando destaque. Em especial, a possibilidade de que a saída de um LLM contenha informações incorretas pode causar consequências graves em áreas sensíveis, como conselhos de saúde. Para mitigar esses riscos, são necessárias tecnologias de guardrails, que funcionam filtrando os textos de entrada e saída do LLM por meio de diversos detectores. No entanto, um dos maiores obstáculos para desenvolver e manter detectores robustos é a dificuldade de obter dados rotulados com qualidade de produção sobre saídas reais de LLMs.
Para resolver esse problema, este estudo propõe uma metodologia inovadora chamada backprompting. O backprompting é uma abordagem que gera dados rotulados semelhantes aos de produção ao fazer novas perguntas sobre o texto gerado por um LLM com base na pergunta inserida pelo usuário. Nesse processo, utiliza-se uma técnica de clusterização com intervenção humana esparsa para rotular os dados gerados. Com isso, é possível construir um corpus paralelo que representa aproximadamente o dataset original, mas ao mesmo tempo se assemelha às saídas reais de LLMs.
O objetivo central da pesquisa é gerar dados de treinamento robustos para detectores por meio da injeção de exemplos sintéticos em datasets existentes. Com isso, busca-se melhorar o desempenho na construção de guardrails capazes de identificar conselhos de saúde. Nos experimentos, o detector proposto registrou um ganho de desempenho de até 3,73% em comparação com métodos anteriores, além de apresentar resultados superiores quando comparado ao GPT-4o. Esses resultados indicam que os dados gerados por meio de backprompting tiveram um impacto positivo no treinamento do detector.
Em conclusão, este estudo apresenta uma nova metodologia de geração de dados para aumentar a segurança das saídas de LLMs e mostra potencial para aplicação futura em diversos domínios. Espera-se que o backprompting seja eficaz no desenvolvimento de guardrails para conselhos de saúde e represente uma contribuição importante para o uso seguro de LLMs.
Resumo do artigo (Abstract)
A difusão dos grandes modelos de linguagem (LLMs) em ambientes corporativos também trouxe uma quantidade significativa de riscos associados ao seu uso. As tecnologias de guardrails buscam mitigar esse risco filtrando o texto de entrada/saída dos LLMs por meio de vários detectores. No entanto, desenvolver e manter detectores robustos enfrenta muitos desafios, um dos quais é a dificuldade de obter, antes da implantação, dados rotulados com qualidade de produção sobre saídas reais de LLMs. Neste trabalho, propomos o backprompting, uma solução simples, porém intuitiva, para gerar dados rotulados semelhantes aos de produção para o desenvolvimento de guardrails de aconselhamento em saúde. Além disso, combinamos nosso método de backprompting com uma técnica esparsa de clustering com humano no loop para rotular os dados gerados. Nosso objetivo é construir um corpus paralelo que represente aproximadamente o conjunto de dados original, mas que ao mesmo tempo se assemelhe a saídas reais de LLMs. Em seguida, injetamos nossos exemplos sintéticos em conjuntos de dados existentes para produzir dados de treinamento robustos para nosso detector. Testamos nossa técnica em um dos guardrails mais difíceis e sutis: a identificação de aconselhamento em saúde em saídas de LLM, e demonstramos melhora em relação a outras soluções. Nosso detector consegue superar o GPT-4o em até 3,73%, apesar de ter 400 vezes menos parâmetros.
> The pervasiveness of large language models (LLMs) in enterprise settings has also brought forth a significant amount of risks associated with their usage. Guardrails technologies aim to mitigate this risk by filtering LLMs' input/output text through various detectors. However, developing and maintaining robust detectors faces many challenges, one of which is the difficulty in acquiring production-quality labeled data on real LLM outputs prior to deployment. In this work, we propose backprompting, a simple yet intuitive solution to generate production-like labeled data for health advice guardrails development. Furthermore, we pair our backprompting method with a sparse human-in-the-loop clustering technique to label the generated data. Our aim is to construct a parallel corpus roughly representative of the original dataset yet resembling real LLM output. We then infuse existing datasets with our synthetic examples to produce robust training data for our detector. We test our technique in one of the most difficult and nuanced guardrails: the identification of health advice in LLM output, and demonstrate improvement versus other solutions. Our detector is able to outperform GPT-4o by up to 3.73%, despite having 400x less parameters.
Link do artigo
https://arxiv.org/abs/2508.18384
Sinergia entre profundidade e amplitude em RLVR: destravando ganhos de raciocínio em LLMs com exploração adaptativa / Depth-Breadth Synergy in RLVR: Unlocking LLM Reasoning Gains with Adaptive Exploration
Introdução ao artigo
Reinforcement Learning with Verifiable Reward (RLVR) tem desempenhado um papel importante na maximização da capacidade de raciocínio de grandes modelos de linguagem (LLMs), mas seu potencial é limitado por duas dimensões ainda pouco exploradas: Depth (o problema mais difícil que o modelo consegue amostrar) e Breadth (o número de instâncias consumidas em uma única iteração). Neste estudo, analisamos o algoritmo GRPO (Generalized Relative Preference Optimization) existente e revelamos um viés sistemático no qual a vantagem acumulada (cumulative advantage) atribui peso desproporcional a amostras com acurácia intermediária, ao mesmo tempo em que subestima instâncias de baixa acurácia. Para resolver isso, propomos a metodologia Difficulty Adaptive Rollout Sampling (DARS), que reequilibra o peso de problemas difíceis por meio de rollouts multiestágio orientados por objetivo, aumentando o número de rollouts positivos.
O DARS não apenas aumenta o tamanho do rollout, mas contribui para melhorar o desempenho de Pass@K. Além disso, investigamos como expandir agressivamente a amplitude dos dados de treinamento pode contribuir para melhorar o raciocínio, ampliando substancialmente o tamanho do batch e substituindo as repetições de mini-batches do Proximal Policy Optimization (PPO) por atualizações de batch completo ao longo de vários epochs. Essa abordagem melhora significativamente o desempenho em Pass@1, e o treinamento em larga amplitude mantém alta entropia em nível de token, indicando exploração contínua e redução do ruído de gradiente.
O DARS-B é uma metodologia que adiciona grande amplitude ao DARS para alcançar simultaneamente ganhos de desempenho em Pass@K e Pass@1, mostrando que a exploração adaptativa de amplitude e profundidade desempenha um papel importante para extrair a capacidade de raciocínio do RLVR. Este estudo apresenta uma nova direção para maximizar a capacidade de raciocínio do RLVR por meio dessas metodologias e demonstra experimentalmente que a exploração adaptativa de profundidade e amplitude contribui para a melhoria do desempenho do RLVR.
Resumo(Abstract)
O aprendizado por reforço com recompensa verificável (Reinforcement Learning with Verifiable Reward, RLVR) emergiu como um paradigma poderoso para desbloquear capacidades de raciocínio em grandes modelos de linguagem, mas seu potencial total é limitado por duas dimensões ainda pouco exploradas: profundidade (Depth) — o problema mais difícil que um modelo consegue amostrar; largura (Breadth) — o número de instâncias consumidas em uma única iteração. Analisamos o popular algoritmo GRPO e revelamos um viés sistemático: a vantagem cumulativa (cumulative-advantage) atribui peso desproporcional a amostras com acurácia intermediária, enquanto reduz o peso de instâncias de baixa acurácia que são cruciais para expandir os limites do raciocínio. Para corrigir essa negligência com a profundidade, introduzimos o Difficulty Adaptive Rollout Sampling (DARS), que repondera problemas difíceis por meio de rollouts multiestágio direcionados, aumentando assim o número de rollouts positivos para problemas difíceis. Empiricamente, ampliar ingenuamente o tamanho do rollout apenas acelera a convergência e ainda prejudica o Pass@K. Em contraste, nosso DARS oferece ganhos consistentes em Pass@K sem custo adicional de inferência na convergência. Assim como expandimos adaptativamente a profundidade da exploração, agora perguntamos se escalar agressivamente a largura dos dados de treinamento pode amplificar ainda mais os ganhos de raciocínio. Para isso, ampliamos intensamente o tamanho do batch e substituímos as iterações de mini-batch do PPO por atualizações de batch completo ao longo de múltiplas épocas. Aumentar a largura melhora significativamente o desempenho em Pass@1. O treinamento com grande largura sustenta alta entropia em nível de token, indicando exploração contínua e redução do ruído do gradiente. Também apresentamos o DARS-B, que complementa o DARS com grande largura, e demonstramos ganhos simultâneos em Pass@K e Pass@1. Os resultados confirmam que a largura e a exploração adaptativa em profundidade operam como dimensões ortogonais no RLVR, sendo fundamentais para liberar o poder de raciocínio do RLVR.
> Reinforcement Learning with Verifiable Reward (RLVR) has emerged as a powerful paradigm for unlocking reasoning capabilities in large language models, yet its full potential is hindered by two under-explored dimensions: Depth-the hardest problem a model can sample; Breadth-the number of instances consumed in a single iteration. We dissect the popular GRPO algorithm and reveal a systematic bias: the cumulative-advantage disproportionately weights samples with medium accuracy, while down-weighting the low-accuracy instances that are crucial for pushing reasoning boundaries. To rectify the depth neglect, we introduce Difficulty Adaptive Rollout Sampling (DARS), which re-weights hard problems through targeted multi-stage rollouts, thereby increasing the number of positive rollouts for hard problems. Empirically, naively enlarging rollout size only accelerates convergence and even hurts Pass@K. Our DARS, in contrast, delivers consistent Pass@K gains without extra inference cost at convergence. Just as we adaptively expanded the depth of exploration, we now ask whether aggressively scaling the breadth of training data can further amplify reasoning gains. To this end, we intensely scale batch size and replace PPO's mini-batch iterations with full-batch updates over multiple epochs. Increasing breadth significantly enhances Pass@1 performance. Large-breadth training sustains high token-level entropy, indicating continued exploration and reduced gradient noise. We further present DARS-B, which augments DARS with large breadth, and demonstrate simultaneous gains in Pass@K and Pass@1. The results confirm that breadth and adaptive exploration across depth operate as orthogonal dimensions in RLVR, which are key to unleashing the reasoning power of RLVR.
Link do artigo
https://arxiv.org/abs/2508.13755
FlowVLA: pensar o movimento com uma cadeia visual de pensamento / FlowVLA: Thinking in Motion with a Visual Chain of Thought
Introdução ao artigo
Os modelos Vision-Language-Action (VLA) dependem de modelos internos do mundo treinados por meio da previsão do próximo frame, mas esse método enfrenta dificuldades no raciocínio físico porque a aparência estática e o movimento dinâmico ficam entrelaçados. Para resolver isso, introduzimos um framework de pré-treinamento chamado Visual Chain of Thought (Visual CoT), que induz o modelo a raciocinar sobre a evolução da cena antes de fazer a previsão. O FlowVLA funciona gerando uma representação intermediária de fluxo óptico antes de prever frames futuros, e esse processo é implementado dentro de um único Transformer autorregressivo, aprendendo ao separar os elementos dinâmicos. Os resultados experimentais mostram que o FlowVLA gera previsões visuais consistentes e melhora significativamente a eficiência do aprendizado de políticas, oferecendo uma base mais principiada para modelagem de mundo.
Resumo do artigo (Abstract)
Muitos modelos de Vision-Language-Action (VLA) dependem de um modelo de mundo interno treinado por meio da predição do próximo frame. No entanto, essa abordagem tem dificuldade com raciocínio físico, pois mistura aparência estática e movimento dinâmico, frequentemente resultando em previsões visuais pouco plausíveis e aprendizado de políticas ineficiente. Para resolver essas limitações, introduzimos o Visual Chain of Thought (Visual CoT): uma estrutura de pré-treinamento que incentiva o modelo a raciocinar sobre como uma cena evolui antes de prever sua aparência. Implementamos esse princípio no FlowVLA, que prevê um frame futuro ($v_{t+1}$) somente após gerar uma representação intermediária de fluxo óptico ($f_t$) que codifica a dinâmica do movimento. Esse processo de raciocínio $v_t \rightarrow f_t \rightarrow v_{t+1}$'' é implementado dentro de um único Transformer autorregressivo, guiando o modelo a aprender dinâmicas desacopladas. Como resultado, o FlowVLA produz previsões visuais coerentes e facilita um aprendizado de políticas mais eficiente. Experimentos em benchmarks desafiadores de manipulação robótica demonstram desempenho state-of-the-art com eficiência de amostragem substancialmente melhorada, apontando para uma base mais fundamentada para modelagem de mundo. Página do projeto: https://irpn-lab.github.io/FlowVLA/ > Many Vision-Language-Action (VLA) models rely on an internal world model trained via next-frame prediction. This approach, however, struggles with physical reasoning as it entangles static appearance with dynamic motion, often resulting in implausible visual forecasts and inefficient policy learning. To address these limitations, we introduce the Visual Chain of Thought (Visual CoT): a pre-training framework that encourages a model to reason about how a scene evolves before predicting what it will look like. We instantiate this principle in FlowVLA, which predicts a future frame ($v_{t+1}$) only after generating an intermediate optical flow representation ($f_t$) that encodes motion dynamics. This $v_t \rightarrow f_t \rightarrow v_{t+1}$'' reasoning process is implemented within a single autoregressive Transformer, guiding the model to learn disentangled dynamics. As a result, FlowVLA produces coherent visual predictions and facilitates more efficient policy learning. Experiments on challenging robotics manipulation benchmarks demonstrate state-of-the-art performance with substantially improved sample efficiency, pointing toward a more principled foundation for world modeling. Project page: https://irpn-lab.github.io/FlowVLA/
Link do artigo
https://arxiv.org/abs/2508.18269
Leia mais
https://irpn-lab.github.io/FlowVLA/
Representação de Memória Episódica para Compreensão de Vídeos Longos / Episodic Memory Representation for Long-form Video Understanding
Introdução ao artigo
Um dos desafios na área de compreensão de vídeo é processar com eficiência o contexto de vídeos longos. Os atuais Video Large Language Models (Video-LLMs) se destacam na compreensão geral de vídeo, mas enfrentam dificuldades com vídeos longos devido às limitações da janela de contexto. Para resolver esse problema, a estrutura Video-EM (Episodic Memory Representation) proposta oferece uma abordagem inovadora que não requer treinamento.
O Video-EM modela os principais eventos do vídeo como episódios ordenados temporalmente, capturando relações espaço-temporais dinâmicas e a narrativa. Essa estrutura é composta por três componentes principais: Key Event Selection, Episodic Memory Representation e Chain of Thought (CoT) Video Reasoning. O módulo Key Event Selection identifica informações relevantes para a consulta e extrai os principais eventos temporalmente adjacentes, resolvendo a redundância do vídeo.
O módulo Episodic Memory Representation modela explicitamente a ordem temporal de cada evento para representar de forma mais rica o contexto espaço-temporal dinâmico. Isso permite reconstruir com eficiência a narrativa do vídeo. Por fim, o CoT Video Reasoning seleciona iterativamente o conjunto mínimo de memórias episódicas relevantes para gerar respostas precisas e fundamentadas no contexto.
Este estudo avaliou o desempenho do Video-EM em vários benchmarks e mostrou resultados com ganho de 4–9% em relação aos modelos existentes. Esses resultados indicam que foi possível manter alta precisão usando um número menor de frames. O Video-EM melhora significativamente a precisão de video question answering e representa uma contribuição importante ao abrir novas possibilidades na área de compreensão de vídeo. Essa abordagem poderá servir como base importante para pesquisas futuras.
Resumo(Abstract)
Os grandes modelos de linguagem para vídeo (Video-LLM) apresentam excelente desempenho em compreensão geral de vídeo, mas têm dificuldades com vídeos longos devido aos limites da janela de contexto. Por isso, abordagens recentes se concentram na recuperação de keyframes, condensando vídeos extensos em um pequeno conjunto de frames informativos. Embora práticas, essas abordagens simplificam o problema para uma correspondência estática entre texto e imagem, ignorando relações espaço-temporais cruciais para capturar transições de cena e continuidade contextual, além de poderem gerar keyframes redundantes com informação limitada, o que pode diluir pistas importantes essenciais para uma resposta precisa a perguntas sobre vídeo. Para lidar com essas limitações, apresentamos o Video-EM, um framework sem treinamento inspirado nos princípios da memória episódica humana, projetado para promover um raciocínio robusto e contextualizado. Em vez de tratar keyframes como entidades visuais isoladas, o Video-EM os modela explicitamente como eventos episódicos ordenados temporalmente, capturando tanto relações espaciais quanto dinâmicas temporais necessárias para reconstruir com precisão a narrativa subjacente. Além disso, esse framework utiliza raciocínio em cadeia (CoT) com LLMs para identificar iterativamente um subconjunto mínimo, porém altamente informativo, de memórias episódicas, permitindo respostas a perguntas eficientes e precisas por Video-LLMs. Avaliações extensivas nos benchmarks Video-MME, EgoSchema, HourVideo e LVBench confirmam a superioridade do Video-EM, que alcança resultados altamente competitivos com ganhos de desempenho de 4% a 9% em relação às respectivas baselines, ao mesmo tempo em que utiliza menos frames.
> Video Large Language Models (Video-LLMs) excel at general video understanding but struggle with long-form videos due to context window limits. Consequently, recent approaches focus on keyframe retrieval, condensing lengthy videos into a small set of informative frames. Despite their practicality, these methods simplify the problem to static text image matching, overlooking spatio temporal relationships crucial for capturing scene transitions and contextual continuity, and may yield redundant keyframes with limited information, diluting salient cues essential for accurate video question answering. To address these limitations, we introduce Video-EM, a training free framework inspired by the principles of human episodic memory, designed to facilitate robust and contextually grounded reasoning. Rather than treating keyframes as isolated visual entities, Video-EM explicitly models them as temporally ordered episodic events, capturing both spatial relationships and temporal dynamics necessary for accurately reconstructing the underlying narrative. Furthermore, the framework leverages chain of thought (CoT) thinking with LLMs to iteratively identify a minimal yet highly informative subset of episodic memories, enabling efficient and accurate question answering by Video-LLMs. Extensive evaluations on the Video-MME, EgoSchema, HourVideo, and LVBench benchmarks confirm the superiority of Video-EM, which achieves highly competitive results with performance gains of 4-9 percent over respective baselines while utilizing fewer frames.
Link do artigo
https://arxiv.org/abs/2508.09486
Este texto foi elaborado com base em um resumo organizado por um modelo GPT, portanto pode haver trechos resumidos de forma diferente do conteúdo ou da intenção do texto original. Se o tema for do seu interesse, recomendamos consultar também o texto original! Se durante a leitura você encontrar algo estranho ou incorreto, pedimos que nos avise nos comentários. 🤗
⚠️Publicidade⚠️: Este texto, organizado pelo 🔥PyTorch Korean User Group🇰🇷, foi útil para você? Se criar uma conta, enviaremos os principais textos por e-mail💌! (O padrão é Weekly, mas você também pode mudar para Daily.)
Ainda não há comentários.