19] Os principais artigos de ML desta semana (Top ML Papers of the Week)

(discuss.pytorch.kr)

5 pontos por ninebow 2025-01-21 | Ainda não há comentários. | Compartilhar no WhatsApp

Traduzimos automaticamente os textos sobre artigos de ML publicados semanalmente pela DAIR.AI.
A tendência mais marcante dos artigos selecionados nesta semana é a intensa atividade de pesquisa em grandes modelos de linguagem (LLMs, Large Language Models) e IA multimodal. Por exemplo, artigos como "Self-Adaptive LLMs", "Foundations of LLMs", "Enhancing RAG" e "VideoRAG" abordam temas relacionados a LLMs e aprendizado multimodal. Além disso, trabalhos como "Imagine while Reasoning in Space" e "OmniThink" também exploram abordagens multimodais que utilizam diferentes formas de dados para tentar resolver problemas complexos.
Essa tendência indica que, dentro da atual comunidade de pesquisa em IA, a importância dos modelos de linguagem e os esforços para alcançar uma compreensão mais abrangente por meio da combinação de diferentes tipos de dados estão crescendo. Os LLMs lideram o estado da arte em processamento de linguagem natural (NLP), e parece estar se disseminando o entendimento de que, para avançar ainda mais essas tecnologias, é necessária uma abordagem integrada que aproveite dados multimodais. Em particular, a IA multimodal vem desempenhando um papel importante na resolução de problemas mais complexos ao combinar compreensão por imagens e compreensão por linguagem natural.
Em conclusão, os artigos desta semana mostram que o foco central da pesquisa em IA está se concentrando em grandes modelos de linguagem e aprendizado multimodal. Isso sugere que a IA não está mais restrita apenas ao processamento de texto, mas caminha na direção de possibilitar uma resolução de problemas mais inteligente e complexa por meio da integração com informações visuais. Portanto, espera-se que essas pesquisas tenham um grande impacto no avanço das tecnologias de IA daqui para frente.

$\text{Transformer}^2$: LLMs autoadaptativos / $\text{Transformer}^2$: Self-adaptive LLMs

Introdução ao artigo

Apresenta o $\text{Transformer}^2$, um novo framework de autoadaptação que ajusta LLMs em tempo real para tarefas inéditas por meio do ajuste seletivo de componentes singulares das matrizes de peso. Ele é construído em duas etapas principais: 1) um sistema de despacho que analisa e identifica as propriedades da tarefa recebida, e 2) uma etapa que combina vetores "especialistas", treinados por aprendizado por reforço, para gerar comportamentos específicos para cada tarefa. Os autores afirmam que ele é mais eficiente que LoRA, usando menos parâmetros, e que pode funcionar em diferentes arquiteturas de LLM.

Introduces $\text{Transformer}^2$, a novel self-adaptation framework that adapts LLMs for unseen tasks in real-time by selectively adjusting singular components of their weight matrices; it’s built with two key phases: 1) a dispatch system that analyzes and identifies the properties of the incoming task, and 2) a step that combines "expert" vectors (trained via reinforcement learning) to create task-specific behaviors; claims to be more efficient than LoRA with fewer parameters and can works across different LLM architectures.

Resumo do artigo (Abstract)

Os grandes modelos de linguagem (LLMs) autoadaptativos têm como objetivo resolver os desafios impostos pelos métodos tradicionais de fine-tuning, que muitas vezes são computacionalmente intensivos e estáticos em sua capacidade de lidar com tarefas diversas. Aqui, apresentamos o $\text{Transformer}^2$, um novo framework de autoadaptação que ajusta LLMs em tempo real para tarefas inéditas ao ajustar seletivamente apenas os componentes singulares de suas matrizes de peso. Durante a inferência, o $\text{Transformer}^2$ emprega um mecanismo de duas passagens. Primeiro, um sistema de despacho identifica as propriedades da tarefa; em seguida, vetores "especialistas" específicos da tarefa, treinados com aprendizado por reforço, são misturados dinamicamente para obter o comportamento-alvo para o prompt recebido. Esse método supera abordagens ubíquas como LoRA, com menos parâmetros e maior eficiência. O $\text{Transformer}^2$ demonstra versatilidade em diferentes arquiteturas e modalidades de LLM, incluindo tarefas de visão-linguagem. O $\text{Transformer}^2$ representa um salto significativo, oferecendo uma solução escalável e eficiente para aprimorar a adaptabilidade e o desempenho específico por tarefa dos LLMs, abrindo caminho para sistemas de IA verdadeiramente dinâmicos e auto-organizáveis.

Self-adaptive large language models (LLMs) aim to solve the challenges posed by traditional fine-tuning methods, which are often computationally intensive and static in their ability to handle diverse tasks. We introduce $\text{Transformer}^2$, a novel self-adaptation framework that adapts LLMs for unseen tasks in real-time by selectively adjusting only the singular components of their weight matrices. During inference, $\text{Transformer}^2$ employs a two-pass mechanism: first, a dispatch system identifies the task properties, and then task-specific "expert" vectors, trained using reinforcement learning, are dynamically mixed to obtain targeted behavior for the incoming prompt. Our method outperforms ubiquitous approaches such as LoRA, with fewer parameters and greater efficiency. $\text{Transformer}^2$ demonstrates versatility across different LLM architectures and modalities, including vision-language tasks. $\text{Transformer}^2$ represents a significant leap forward, offering a scalable, efficient solution for enhancing the adaptability and task-specific performance of LLMs, paving the way for truly dynamic, self-organizing AI systems.

Link do artigo

https://arxiv.org/abs/2501.06252

MiniMax-01: modelos fundacionais que escalam na velocidade de um raio / MiniMax-01: Scaling Foundation Models with Lightning Attention

Introdução ao artigo

Introduz uma nova série de modelos que integra Mixture-of-Experts, incluindo um modelo com 32 especialistas e 456 bilhões de parâmetros, dos quais 45,9 bilhões são ativados para cada token; afirma igualar o desempenho de modelos de ponta como GPT-4o e Claude-3.5-Sonnet, ao mesmo tempo em que oferece uma janela de contexto 20–32x maior; pode lidar com janelas de contexto de até 4 milhões de tokens; integra atenção linear com utilização otimizada de hardware, o que melhora a eficiência e a escalabilidade do LLM; há também um modelo de visão chamado MiniMax-VL-01, construído por meio de treinamento contínuo com 512 bilhões de tokens visão-linguagem.

Introduces a new series of models that integrate Mixture-of-Experts; introduces a model with 32 experts and 456B parameters, and 45.9B are activated for each token; claims match the performance of state-of-the-art models like GPT-4o and Claude-3.5-Sonnet while offering a 20-32x longer context window; it can handle context windows of up to 4 million tokens; it integrates linear attention with optimized hardware utilization which enhances the efficiency and scalability of the LLM; there is also a vision model called MiniMax-VL-01 built through continued training with 512 billion vision-language tokens.

Resumo do artigo (Abstract)

Apresentamos a série MiniMax-01, incluindo MiniMax-Text-01 e MiniMax-VL-01, que se equipara a modelos de primeira linha ao mesmo tempo em que oferece capacidades superiores no processamento de contextos mais longos. O núcleo está na lightning attention e em sua escalabilidade eficiente. Para maximizar a capacidade computacional, nós a integramos com Mixture of Experts (MoE), criando um modelo com 32 especialistas e 456 bilhões de parâmetros totais, dos quais 45,9 bilhões são ativados para cada token. Desenvolvemos uma estratégia de paralelismo otimizada e técnicas altamente eficientes de sobreposição entre computação e comunicação para MoE e lightning attention. Essa abordagem nos permite realizar treinamento e inferência eficientes em modelos com centenas de bilhões de parâmetros, em contextos que se estendem por milhões de tokens. A janela de contexto do MiniMax-Text-01 pode chegar a 1 milhão de tokens durante o treinamento e extrapolar para 4 milhões de tokens durante a inferência a um custo acessível. Nosso modelo visão-linguagem, MiniMax-VL-01, foi construído por meio de treinamento contínuo com 512 bilhões de tokens visão-linguagem. Experimentos em benchmarks padrão e internos mostram que nossos modelos igualam o desempenho de modelos de ponta como GPT-4o e Claude-3.5-Sonnet, ao mesmo tempo em que oferecem uma janela de contexto 20–32 vezes maior. O MiniMax-01 é lançado publicamente em https://github.com/MiniMax-AI.

We introduce MiniMax-01 series, including MiniMax-Text-01 and MiniMax-VL-01, which are comparable to top-tier models while offering superior capabilities in processing longer contexts. The core lies in lightning attention and its efficient scaling. To maximize computational capacity, we integrate it with Mixture of Experts (MoE), creating a model with 32 experts and 456 billion total parameters, of which 45.9 billion are activated for each token. We develop an optimized parallel strategy and highly efficient computation-communication overlap techniques for MoE and lightning attention. This approach enables us to conduct efficient training and inference on models with hundreds of billions of parameters across contexts spanning millions of tokens. The context window of MiniMax-Text-01 can reach up to 1 million tokens during training and extrapolate to 4 million tokens during inference at an affordable cost. Our vision-language model, MiniMax-VL-01 is built through continued training with 512 billion vision-language tokens. Experiments on both standard and in-house benchmarks show that our models match the performance of state-of-the-art models like GPT-4o and Claude-3.5-Sonnet while offering 20-32 times longer context window. We publicly release MiniMax-01 at https://github.com/MiniMax-AI.

Link do artigo

https://arxiv.org/abs/2501.08313

VideoRAG: geração aumentada por recuperação sobre corpus de vídeo / VideoRAG: Retrieval-Augmented Generation over Video Corpus

Introdução do artigo

Um framework que aprimora o RAG ao usar conteúdo de vídeo como fonte externa de conhecimento; diferentemente das abordagens de RAG existentes, que se concentram principalmente em texto ou imagens, o VideoRAG recupera dinamicamente vídeos relevantes com base nas consultas e incorpora tanto seus elementos visuais quanto textuais ao processo de geração; o framework utiliza Large Video Language Models (LVLMs) para processar diretamente o conteúdo de vídeo, permitindo capturar com mais eficácia dinâmicas temporais, detalhes espaciais e sinais multimodais que modalidades estáticas muitas vezes não conseguem transmitir; para vídeos sem descrições textuais, os autores propõem usar reconhecimento automático de fala para gerar transcrições, garantindo que tanto as modalidades visuais quanto textuais possam ser aproveitadas.

A framework that enhances RAG by leveraging video content as an external knowledge source; unlike existing RAG approaches that primarily focus on text or images, VideoRAG dynamically retrieves relevant videos based on queries and incorporates both their visual and textual elements into the generation process; the framework utilizes Large Video Language Models (LVLMs) to process video content directly, enabling more effective capture of temporal dynamics, spatial details, and multimodal cues that static modalities often fail to convey; for videos lacking textual descriptions, they propose using automatic speech recognition to generate transcripts, ensuring both visual and textual modalities can be leveraged.

Resumo do artigo (Abstract)

A geração aumentada por recuperação (RAG) é uma estratégia poderosa para lidar com o problema de gerar saídas factualmente incorretas em modelos de base, recuperando conhecimento externo relevante para as consultas e incorporando-o ao processo de geração. No entanto, as abordagens de RAG existentes têm se concentrado principalmente em informações textuais; alguns avanços recentes começaram a considerar imagens, mas em grande parte ignoram vídeos, uma rica fonte de conhecimento multimodal capaz de representar eventos, processos e detalhes contextuais de forma mais eficaz do que qualquer outra modalidade. Embora alguns estudos recentes explorem a integração de vídeos no processo de geração de respostas, eles ou predefinem vídeos associados à consulta sem recuperá-los de acordo com a consulta, ou convertem vídeos em descrições textuais sem aproveitar sua riqueza multimodal. Para enfrentar essas limitações, apresentamos o VideoRAG, uma nova estrutura que não apenas recupera dinamicamente vídeos relevantes com base em sua relação com as consultas, como também utiliza tanto as informações visuais quanto as textuais dos vídeos na geração da saída. Além disso, para viabilizar isso, implementamos o método em torno dos avanços recentes dos Large Video Language Models (LVLMs), que permitem processar diretamente o conteúdo de vídeo para representá-lo na recuperação e integrar de forma fluida os vídeos recuperados em conjunto com as consultas. Validamos experimentalmente a eficácia do VideoRAG, mostrando que ele supera os baselines relevantes.

Retrieval-Augmented Generation (RAG) is a powerful strategy to address the issue of generating factually incorrect outputs in foundation models by retrieving external knowledge relevant to queries and incorporating it into their generation process. However, existing RAG approaches have primarily focused on textual information, with some recent advancements beginning to consider images, and they largely overlook videos, a rich source of multimodal knowledge capable of representing events, processes, and contextual details more effectively than any other modality. While a few recent studies explore the integration of videos in the response generation process, they either predefine query-associated videos without retrieving them according to queries, or convert videos into the textual descriptions without harnessing their multimodal richness. To tackle these, we introduce VideoRAG, a novel framework that not only dynamically retrieves relevant videos based on their relevance with queries but also utilizes both visual and textual information of videos in the output generation. Further, to operationalize this, our method revolves around the recent advance of Large Video Language Models (LVLMs), which enable the direct processing of video content to represent it for retrieval and seamless integration of the retrieved videos jointly with queries. We experimentally validate the effectiveness of VideoRAG, showcasing that it is superior to relevant baselines.

Link do artigo

https://arxiv.org/abs/2501.05874

Titan: aprendendo a memorizar na hora do teste / Titans: Learning to Memorize at Test Time

Apresentação do artigo

Ao introduzir um módulo neural de memória de longo prazo para memorizar o contexto histórico e ajudar a atenção a focar no contexto atual enquanto aproveita informações longas do passado, esse módulo de memória neural atua como uma memória de longo prazo, mais persistente do que usar apenas atenção (considerada mais de curto prazo); o Titan, baseado em memória neural, mostra bons resultados em modelagem de linguagem, raciocínio de senso comum, genômica e tarefas de séries temporais.

Introduces a neural long-term memory module to memorize historical context and help attention to attend to the current context while utilizing long past information; the neural memory module acts as a long-term, more persistent memory than just using attention alone (considered more short-term); Titan, which is based on neural memory, shows good results in language modeling, common-sense reasoning, genomics, and time series tasks.

Resumo do artigo (Abstract)

Ao longo de mais de uma década, houve um amplo esforço de pesquisa sobre como utilizar de forma eficaz modelos recorrentes e atenção. Enquanto os modelos recorrentes buscam comprimir os dados em uma memória de tamanho fixo (chamada de estado oculto), a atenção permite observar toda a janela de contexto, capturando as dependências diretas de todos os tokens. No entanto, essa modelagem mais precisa das dependências traz um custo quadrático, limitando o modelo a um contexto de comprimento fixo. Apresentamos um novo módulo de memória neural de longo prazo que aprende a memorizar o contexto histórico e ajuda a atenção a se concentrar no contexto atual enquanto utiliza informações de um passado distante. Mostramos que essa memória neural tem a vantagem de um treinamento rápido e paralelizável, mantendo ao mesmo tempo uma inferência rápida. Do ponto de vista da memória, argumentamos que a atenção, devido ao seu contexto limitado, mas à modelagem precisa de dependências, funciona como uma memória de curto prazo, enquanto a memória neural, devido à sua capacidade de memorizar os dados, atua como uma memória de longo prazo, mais persistente. Com base nesses dois módulos, introduzimos uma nova família de arquiteturas, chamada Titans, e apresentamos três variantes para mostrar como incorporar memória de forma eficaz nessa arquitetura. Nossos resultados experimentais em modelagem de linguagem, raciocínio de senso comum, genômica e tarefas de séries temporais mostram que Titans é mais eficaz do que Transformers e modelos recorrentes lineares modernos recentes. Além disso, ele pode escalar de forma eficaz para janelas de contexto maiores que 2M, com maior precisão em tarefas de agulha no palheiro em comparação com os baselines.

Over more than a decade there has been an extensive research effort on how to effectively utilize recurrent models and attention. While recurrent models aim to compress the data into a fixed-size memory (called hidden state), attention allows attending to the entire context window, capturing the direct dependencies of all tokens. This more accurate modeling of dependencies, however, comes with a quadratic cost, limiting the model to a fixed-length context. We present a new neural long-term memory module that learns to memorize historical context and helps attention to attend to the current context while utilizing long past information. We show that this neural memory has the advantage of fast parallelizable training while maintaining a fast inference. From a memory perspective, we argue that attention due to its limited context but accurate dependency modeling performs as a short-term memory, while neural memory due to its ability to memorize the data, acts as a long-term, more persistent, memory. Based on these two modules, we introduce a new family of architectures, called Titans, and present three variants to address how one can effectively incorporate memory into this architecture. Our experimental results on language modeling, common-sense reasoning, genomics, and time series tasks show that Titans are more effective than Transformers and recent modern linear recurrent models. They further can effectively scale to larger than 2M context window size with higher accuracy in needle-in-haystack tasks compared to baselines.

Link do artigo

https://arxiv.org/abs/2501.00663

Fundamentos dos Grandes Modelos de Linguagem / Foundations of Large Language Models

Introdução ao artigo

Um novo levantamento sobre os fundamentos dos LLMs, cobrindo áreas como pré-treinamento, prompting e métodos de alinhamento.

New survey on the foundations of LLMs covering areas such as pre-training, prompting, and alignment methods.

Resumo do artigo (Abstract)

Este é um livro sobre grandes modelos de linguagem. Como indicado pelo título, ele se concentra principalmente em conceitos fundamentais, em vez de oferecer uma cobertura abrangente de todas as tecnologias de ponta. O livro está estruturado em quatro capítulos principais, cada um explorando uma área-chave: pré-treinamento, modelos generativos, técnicas de prompting e métodos de alinhamento. Ele é destinado a estudantes universitários, profissionais e praticantes de processamento de linguagem natural e áreas relacionadas, podendo servir como referência para qualquer pessoa interessada em grandes modelos de linguagem.

This is a book about large language models. As indicated by the title, it primarily focuses on foundational concepts rather than comprehensive coverage of all cutting-edge technologies. The book is structured into four main chapters, each exploring a key area: pre-training, generative models, prompting techniques, and alignment methods. It is intended for college students, professionals, and practitioners in natural language processing and related fields, and can serve as a reference for anyone interested in large language models.

Link do artigo

https://arxiv.org/abs/2501.09223

OmniThink: Expandindo as fronteiras do conhecimento na escrita de máquinas por meio do pensamento / OmniThink: Expanding Knowledge Boundaries in Machine Writing through Thinking

Introdução ao artigo

Uma nova estrutura que emula um processo humano de expansão e reflexão iterativas; foi projetada para simular o comportamento cognitivo de aprendizes à medida que aprofundam seu conhecimento; em comparação com RAG e role-playing, o OmniThink pode expandir as fronteiras do conhecimento por meio de reflexão e exploração contínuas; isso o torna ideal para casos de uso que exigem geração em formato longo.

A new framework that emulates a human-like process of iterative expansion and reflection; it's built to simulate the cognitive behavior of learners as they deepen their knowledge; compared to RAG and role-playing, OmniThink can expand knowledge boundaries through continuous reflection and exploration; this makes it ideal for use cases that require long-form generation.

Resumo do artigo (Abstract)

A escrita automática com grandes modelos de linguagem frequentemente depende de geração aumentada por recuperação. No entanto, essas abordagens permanecem confinadas aos limites do escopo predefinido do modelo, o que restringe a geração de conteúdo rico em informações. Em particular, as informações recuperadas de forma básica tendem a carecer de profundidade e utilidade, além de sofrer com redundância, o que afeta negativamente a qualidade dos artigos gerados e leva a resultados superficiais, repetitivos e pouco originais. Para resolver esses problemas, é proposto o OmniThink, um framework de escrita automática que emula o processo humano de expansão e reflexão iterativas. A ideia central do OmniThink é simular o comportamento cognitivo de aprendizes à medida que aprofundam progressivamente seu conhecimento sobre os tópicos. Os resultados experimentais mostram que o OmniThink melhora a densidade de conhecimento dos artigos gerados sem comprometer métricas como coerência e profundidade. Avaliações humanas e feedback de especialistas reforçam ainda mais o potencial do OmniThink para enfrentar desafios do mundo real na geração de artigos longos.

Machine writing with large language models often relies on retrieval-augmented generation. However, these approaches remain confined within the boundaries of the model's predefined scope, limiting the generation of content with rich information. Specifically, vanilla-retrieved information tends to lack depth, utility, and suffers from redundancy, which negatively impacts the quality of generated articles, leading to shallow, repetitive, and unoriginal outputs. To address these issues, we propose OmniThink, a machine writing framework that emulates the human-like process of iterative expansion and reflection. The core idea behind OmniThink is to simulate the cognitive behavior of learners as they progressively deepen their knowledge of the topics. Experimental results demonstrate that OmniThink improves the knowledge density of generated articles without compromising metrics such as coherence and depth. Human evaluations and expert feedback further highlight the potential of OmniThink to address real-world challenges in the generation of long-form articles.

Link do artigo

https://arxiv.org/abs/2501.09751

Aprimorando a geração aumentada por recuperação: um estudo de boas práticas / Enhancing Retrieval-Augmented Generation: A Study of Best Practices

Apresentação do artigo

Explora de forma sistemática os fatores e métodos que melhoram sistemas de RAG, como estratégias de recuperação, expansão de consulta, aprendizado em contexto contrastivo, design de prompt e chunking.

Systematically explores the factors and methods that improve RAG systems such as retrieval strategies, query expansion, contrastive in-context learning, prompt design, and chunking.

Resumo do artigo (Abstract)

Os sistemas de geração aumentada por recuperação (RAG) têm mostrado avanços notáveis recentemente ao integrar mecanismos de recuperação a modelos de linguagem, aumentando sua capacidade de produzir respostas mais precisas e contextualmente relevantes. No entanto, a influência dos vários componentes e configurações dentro dos sistemas RAG ainda permanece pouco explorada. Uma compreensão abrangente desses elementos é essencial para adaptar sistemas RAG a tarefas complexas de recuperação e garantir desempenho ideal em diversas aplicações. Neste artigo, desenvolvemos vários designs avançados de sistemas RAG que incorporam expansão de consulta, várias estratégias novas de recuperação e um novo RAG com Contrastive In-Context Learning. Nosso estudo investiga de forma sistemática fatores-chave, incluindo tamanho do modelo de linguagem, design de prompt, tamanho dos chunks de documento, tamanho da base de conhecimento, stride de recuperação, técnicas de expansão de consulta, bases de conhecimento para Contrastive In-Context Learning, bases de conhecimento multilíngues e o Focus Mode, que recupera contexto relevante em nível de sentença. Por meio de experimentos extensivos, fornecemos uma análise detalhada de como esses fatores influenciam a qualidade das respostas. Nossos achados oferecem insights acionáveis para o desenvolvimento de sistemas RAG, equilibrando riqueza contextual e eficiência da recuperação-geração, abrindo caminho para frameworks de RAG mais adaptáveis e de alto desempenho em diversos cenários reais. Nosso código e os detalhes de implementação estão disponíveis publicamente.

Retrieval-Augmented Generation (RAG) systems have recently shown remarkable advancements by integrating retrieval mechanisms into language models, enhancing their ability to produce more accurate and contextually relevant responses. However, the influence of various components and configurations within RAG systems remains underexplored. A comprehensive understanding of these elements is essential for tailoring RAG systems to complex retrieval tasks and ensuring optimal performance across diverse applications. In this paper, we develop several advanced RAG system designs that incorporate query expansion, various novel retrieval strategies, and a novel Contrastive In-Context Learning RAG. Our study systematically investigates key factors, including language model size, prompt design, document chunk size, knowledge base size, retrieval stride, query expansion techniques, Contrastive In-Context Learning knowledge bases, multilingual knowledge bases, and Focus Mode retrieving relevant context at sentence-level. Through extensive experimentation, we provide a detailed analysis of how these factors influence response quality. Our findings offer actionable insights for developing RAG systems, striking a balance between contextual richness and retrieval-generation efficiency, thereby paving the way for more adaptable and high-performing RAG frameworks in diverse real-world scenarios. Our code and implementation details are publicly available.

Link do artigo

https://arxiv.org/abs/2501.07391

AutoCBT: framework autônomo multiagente para terapia cognitivo-comportamental em aconselhamento psicológico / AutoCBT: An Autonomous Multi-agent Framework for Cognitive Behavioral Therapy in Psychological Counseling

Apresentação do artigo

Propõe o AutoCBT, um framework multiagente para terapia cognitivo-comportamental. O estudo propõe um framework multiagente geral que gera respostas de alta qualidade para cenários de aconselhamento psicológico de turno único, usa uma combinação de roteamento dinâmico, memória e mecanismos de supervisão para ampliar a autonomia de cada agente, e os resultados experimentais mostram que o AutoCBT pode oferecer serviços automatizados de aconselhamento psicológico de maior qualidade; o AutoCBT melhora a qualidade do diálogo em comparação com outros frameworks de aconselhamento baseados apenas em prompting.

Proposes a multi-agent framework, AutoCBT, for Cognitive Behavioral Therapy; the work proposes a general multi-agent framework that generates high-quality responses for single-turn psychological consultation scenarios; it uses a combination of dynamic routing, memory, and supervisory mechanisms to enhance the autonomous ability of each agent; experimental results show that AutoCBT can provide higher-quality automated psychological counseling services; AutoCBT improves dialogue quality compared to other purely prompt-based counseling frameworks.

Resumo do artigo (Abstract)

O aconselhamento psicológico presencial tradicional continua sendo, em grande parte, um nicho escolhido por pessoas com problemas psicológicos, enquanto o aconselhamento automatizado online oferece uma solução potencial para quem hesita em buscar ajuda por sentimentos de vergonha. A terapia cognitivo-comportamental (CBT) é uma abordagem essencial e amplamente utilizada no aconselhamento psicológico. O surgimento dos grandes modelos de linguagem (LLMs) e da tecnologia de agentes torna possível o diagnóstico e o tratamento automatizados de CBT. No entanto, os sistemas atuais de CBT baseados em LLM usam agentes com estrutura fixa, o que limita suas capacidades de auto-otimização, ou fornecem sugestões vazias e pouco úteis devido a padrões de resposta redundantes. Neste trabalho, utilizamos modelos de consulta de rodada única no estilo Quora e o modelo de consulta de rodada única YiXinLi para construir um framework geral de agentes que gera respostas de alta qualidade para cenários de aconselhamento psicológico de turno único. Usamos um conjunto de dados bilíngue para avaliar a qualidade das consultas de resposta única geradas por cada framework. Em seguida, incorporamos mecanismos de roteamento dinâmico e supervisão inspirados no aconselhamento psicológico real para construir um framework autônomo multiagente orientado a CBT, demonstrando sua aplicabilidade geral. Os resultados experimentais indicam que o AutoCBT pode oferecer serviços automatizados de aconselhamento psicológico de maior qualidade.

Traditional in-person psychological counseling remains primarily niche, often chosen by individuals with psychological issues, while online automated counseling offers a potential solution for those hesitant to seek help due to feelings of shame. Cognitive Behavioral Therapy (CBT) is an essential and widely used approach in psychological counseling. The advent of large language models (LLMs) and agent technology enables automatic CBT diagnosis and treatment. However, current LLM-based CBT systems use agents with a fixed structure, limiting their self-optimization capabilities, or providing hollow, unhelpful suggestions due to redundant response patterns. In this work, we utilize Quora-like and YiXinLi single-round consultation models to build a general agent framework that generates high-quality responses for single-turn psychological consultation scenarios. We use a bilingual dataset to evaluate the quality of single-response consultations generated by each framework. Then, we incorporate dynamic routing and supervisory mechanisms inspired by real psychological counseling to construct a CBT-oriented autonomous multi-agent framework, demonstrating its general applicability. Experimental results indicate that AutoCBT can provide higher-quality automated psychological counseling services.

Link do artigo

https://arxiv.org/abs/2501.09426

Imagine enquanto raciocina no espaço: visualização do pensamento multimodal / Imagine while Reasoning in Space: Multimodal Visualization-of-Thought

Apresentação do artigo

Introduz o MVoT (Multimodal Visualization-of-Thought), um novo framework de raciocínio que permite que modelos de IA “pensem” tanto em texto quanto em imagens; o MVoT aprimora o prompting tradicional de Chain-of-Thought ao permitir que os modelos gerem representações visuais de suas etapas de raciocínio junto com explicações em texto; o framework é implementado no Chameleon-7B, um modelo de linguagem multimodal, e introduz uma “token discrepancy loss” para melhorar a qualidade das visualizações geradas; o MVoT supera significativamente as abordagens tradicionais, especialmente em cenários complexos; o MVoT atinge mais de 90% de acurácia em tarefas de labirinto e instalação de impressoras.

Introduces MVoT (Multimodal Visualization-of-Thought), a new reasoning framework that enables AI models to "think" in both text and images; MVoT enhances the traditional Chain-of-Thought prompting by allowing models to generate visual representations of their reasoning steps alongside text explanations; the framework is implemented in Chameleon-7B, a multimodal language model, and introduces a "token discrepancy loss" to improve the quality of generated visualizations; MVoT significantly outperforms traditional approaches, especially in complex scenarios; MVoT achieves over 90% accuracy on maze and printer installation tasks.

Resumo do artigo (Abstract)

Os prompts de Chain-of-Thought (CoT) provaram ser altamente eficazes para aprimorar o raciocínio complexo em Large Language Models (LLMs) e Multimodal Large Language Models (MLLMs). No entanto, eles enfrentam dificuldades em tarefas complexas de raciocínio espacial. Ainda assim, a cognição humana não se limita apenas à linguagem, expandindo-se para demonstrar uma notável capacidade de pensar tanto com palavras quanto com imagens. Inspirados por esse mecanismo, os autores propõem um novo paradigma de raciocínio, o Multimodal Visualization-of-Thought (MVoT). Ele viabiliza o pensamento visual em MLLMs ao gerar visualizações em imagem de seus rastros de raciocínio. Para garantir visualizações de alta qualidade, foi introduzida uma token discrepancy loss em MLLMs autorregressivos. Essa inovação melhora significativamente tanto a coerência visual quanto a fidelidade. Essa abordagem foi validada por meio de várias tarefas dinâmicas de raciocínio espacial. Os resultados experimentais mostram que o MVoT apresenta desempenho competitivo em várias tarefas. Além disso, ele exibe melhorias robustas e confiáveis nos cenários mais desafiadores em que o CoT falha. Em última análise, o MVoT abre novas possibilidades para tarefas complexas de raciocínio, nas quais o pensamento visual pode complementar de forma eficaz o raciocínio verbal.

Chain-of-Thought (CoT) prompting has proven highly effective for enhancing complex reasoning in Large Language Models (LLMs) and Multimodal Large Language Models (MLLMs). Yet, it struggles in complex spatial reasoning tasks. Nonetheless, human cognition extends beyond language alone, enabling the remarkable capability to think in both words and images. Inspired by this mechanism, we propose a new reasoning paradigm, Multimodal Visualization-of-Thought (MVoT). It enables visual thinking in MLLMs by generating image visualizations of their reasoning traces. To ensure high-quality visualization, we introduce token discrepancy loss into autoregressive MLLMs. This innovation significantly improves both visual coherence and fidelity. We validate this approach through several dynamic spatial reasoning tasks. Experimental results reveal that MVoT demonstrates competitive performance across tasks. Moreover, it exhibits robust and reliable improvements in the most challenging scenarios where CoT fails. Ultimately, MVoT establishes new possibilities for complex reasoning tasks where visual thinking can effectively complement verbal reasoning.

Link do artigo

https://arxiv.org/abs/2501.07542

ChemAgent: biblioteca autoatualizável em Large Language Models melhora o raciocínio químico / ChemAgent: Self-updating Library in Large Language Models Improves Chemical Reasoning

Apresentação do artigo

É apresentado um novo framework projetado para melhorar o desempenho de LLMs em raciocínio químico por meio de uma biblioteca dinâmica e autoatualizável. A biblioteca é desenvolvida decompondo tarefas químicas em subtarefas e compilando-as em uma coleção estruturada que pode ser consultada em consultas futuras; quando um novo problema é dado ao sistema, ele reutiliza e refina informações relevantes da biblioteca para permitir uma decomposição de tarefas mais eficaz; a biblioteca é atualizada dinamicamente com novas subtarefas e soluções à medida que são encontradas e validadas; experimentos no SciBench mostram que o ChemAgent alcança ganhos de desempenho de até 46% (GPT-4), superando significativamente os métodos existentes.

Presents a new framework designed to improve the performance of LLMs on chemical reasoning through a dynamic, self-updating library; the library is developed by decomposing chemical tasks into sub-tasks and compiling them into a structured collection that can be referenced for future queries; when the system is given a new problem, it retries and refines relevant information from the library to enable more effective task decomposition; the library is dynamically updated with new sub-tasks and solutions as they are encountered and validated; experiments on SciBench demonstrate that ChemAgent achieves performance gains of up to 46% (GPT-4), significantly outperforming existing methods.

Resumo do artigo (Abstract)

O raciocínio químico geralmente envolve processos complexos de múltiplas etapas que exigem cálculos precisos, nos quais até pequenos erros podem levar a falhas em cascata. Além disso, grandes modelos de linguagem (LLMs) enfrentam dificuldades para lidar com fórmulas específicas do domínio, executar com precisão as etapas de raciocínio e integrar código de forma eficaz ao tratar tarefas de raciocínio químico. Para enfrentar esses desafios, a Unity apresenta o ChemAgent, uma nova estrutura projetada para melhorar o desempenho de LLMs por meio de uma biblioteca dinâmica e autoatualizável. Essa biblioteca é desenvolvida decompondo tarefas químicas em subtarefas e compilando essas subtarefas em uma coleção estruturada que pode ser consultada em consultas futuras. Em seguida, quando um novo problema é apresentado, o ChemAgent recupera e refina informações pertinentes da biblioteca, que eles chamam de memória, facilitando uma decomposição eficaz da tarefa e a geração de soluções. Esse método projeta três tipos de memória e um componente de raciocínio aprimorado por biblioteca, permitindo que os LLMs melhorem ao longo do tempo por meio da experiência. Resultados experimentais em quatro conjuntos de dados de raciocínio químico do SciBench mostram que o ChemAgent alcança ganhos de desempenho de até 46% (GPT-4), superando significativamente os métodos existentes. Esses resultados sugerem um potencial substancial para aplicações futuras, incluindo tarefas como descoberta de fármacos e ciência dos materiais. Mais detalhes podem ser encontrados em https://github.com/gersteinlab/chemagent

O raciocínio químico geralmente envolve processos complexos de múltiplas etapas que exigem cálculos precisos, nos quais até pequenos erros podem levar a falhas em cascata. Além disso, grandes modelos de linguagem (LLMs) enfrentam dificuldades para lidar com fórmulas específicas do domínio, executar com precisão as etapas de raciocínio e integrar código de forma eficaz ao enfrentar tarefas de raciocínio químico. Para enfrentar esses desafios, apresentamos o ChemAgent, uma nova estrutura projetada para melhorar o desempenho de LLMs por meio de uma biblioteca dinâmica e autoatualizável. Essa biblioteca é desenvolvida decompondo tarefas químicas em subtarefas e compilando essas subtarefas em uma coleção estruturada que pode ser consultada em consultas futuras. Em seguida, quando apresentado a um novo problema, o ChemAgent recupera e refina informações pertinentes da biblioteca, que chamamos de memória, facilitando uma decomposição eficaz da tarefa e a geração de soluções. Nosso método projeta três tipos de memória e um componente de raciocínio aprimorado por biblioteca, permitindo que os LLMs melhorem ao longo do tempo por meio da experiência. Resultados experimentais em quatro conjuntos de dados de raciocínio químico do SciBench demonstram que o ChemAgent alcança ganhos de desempenho de até 46% (GPT-4), superando significativamente os métodos existentes. Nossos achados sugerem um potencial substancial para aplicações futuras, incluindo tarefas como descoberta de fármacos e ciência dos materiais. Nosso código pode ser encontrado em https://github.com/gersteinlab/chemagent

Link do artigo

https://arxiv.org/abs/2501.06590

Texto original

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-adb

Este texto foi organizado com um modelo GPT e pode conter erros, então consulte também o texto original no final da página! Se você encontrar algum trecho estranho ou incorreto durante a leitura, por favor avise nos comentários.* 🤗

⚠️Publicidade⚠️: Este texto, organizado pela 🔥Comunidade de Usuários PyTorch da Coreia🇰🇷, foi útil para você? Se inscrever como membro, você receberá os principais textos por e-mail💌! (O padrão é Weekly, mas também é possível mudar para Daily.)

[2025/01/13 ~ 01/19] Os principais artigos de ML desta semana (Top ML Papers of the Week)

$\text{Transformer}^2$: LLMs autoadaptativos / $\text{Transformer}^2$: Self-adaptive LLMs

Introdução ao artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

MiniMax-01: modelos fundacionais que escalam na velocidade de um raio / MiniMax-01: Scaling Foundation Models with Lightning Attention

Introdução ao artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

VideoRAG: geração aumentada por recuperação sobre corpus de vídeo / VideoRAG: Retrieval-Augmented Generation over Video Corpus

Introdução do artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

Titan: aprendendo a memorizar na hora do teste / Titans: Learning to Memorize at Test Time

Apresentação do artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

Fundamentos dos Grandes Modelos de Linguagem / Foundations of Large Language Models

Introdução ao artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

OmniThink: Expandindo as fronteiras do conhecimento na escrita de máquinas por meio do pensamento / OmniThink: Expanding Knowledge Boundaries in Machine Writing through Thinking

Introdução ao artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

Aprimorando a geração aumentada por recuperação: um estudo de boas práticas / Enhancing Retrieval-Augmented Generation: A Study of Best Practices

Apresentação do artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

AutoCBT: framework autônomo multiagente para terapia cognitivo-comportamental em aconselhamento psicológico / AutoCBT: An Autonomous Multi-agent Framework for Cognitive Behavioral Therapy in Psychological Counseling

Apresentação do artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

Imagine enquanto raciocina no espaço: visualização do pensamento multimodal / Imagine while Reasoning in Space: Multimodal Visualization-of-Thought

Apresentação do artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

ChemAgent: biblioteca autoatualizável em Large Language Models melhora o raciocínio químico / ChemAgent: Self-updating Library in Large Language Models Improves Chemical Reasoning

Apresentação do artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

Texto original

Leituras relacionadas

Ainda não há comentários.