[2024/06/17 ~ 06/23] Principais artigos de ML da semana (Top ML Papers of the Week)
(discuss.pytorch.kr)-
Traduzimos automaticamente os artigos sobre papers de ML publicados semanalmente pela DAIR.AI.
-
Ao observar os artigos selecionados desta semana, é possível identificar duas grandes tendências principais. Primeiro, nota-se que a maioria dos artigos está concentrada em temas relacionados ao processamento de linguagem natural (NLP). Entre eles, ganharam destaque especialmente os métodos para aumentar a eficiência de modelos de linguagem (LM) que lidam com contextos longos, além de sistemas de recuperação de informação e perguntas e respostas (QA). Por exemplo, artigos como ‘Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?’ exploram o potencial de modelos de linguagem capazes de compreender contextos extensos, enquanto ‘PlanRAG’ e ‘From RAG to Rich Parameters’ apresentam novas abordagens para melhorar sistemas de recuperação de informação e QA.
-
Outra tendência digna de atenção é a tentativa de mitigar a memorization (fenômeno de memorização) dos modelos de linguagem ou de melhorar o desempenho por meio de processos de self-refine (auto-refinamento). ‘Mitigating Memorization in LLMs’ e ‘Monte Carlos Tree Self-Refine’ se destacam sob essa perspectiva. Mitigar o fenômeno de memorização é importante para que os modelos de linguagem não apenas repitam os dados de treinamento, mas aprendam conhecimentos mais generalizáveis e possam gerar respostas criativas. Esse é um dos pontos-chave para maximizar a praticidade e a utilidade dos modelos de linguagem.
-
Essas tendências provavelmente estão sendo impulsionadas por diversos fatores. Em primeiro lugar, a importância do processamento de linguagem natural cresce a cada dia no campo da inteligência artificial, e os avanços técnicos nessa área estão acontecendo rapidamente. Em segundo lugar, à medida que o volume de informação se torna imenso, aumenta a necessidade de tecnologias capazes de processá-la de forma eficiente e fornecer informações úteis aos usuários. Por fim, os modelos de linguagem recentes estão se tornando cada vez mais complexos e poderosos, mas continua havendo demanda por novas abordagens que resolvam os problemas enfrentados por esses modelos. Para atender a essa demanda, os pesquisadores seguem buscando novas ideias e metodologias que vão além dos frameworks existentes.
Claude 3.5 Sonnet / Claude 3.5 Sonnet
Apresentação do artigo
Um novo modelo que alcança desempenho de ponta em vários benchmarks comuns, como MMLU e HumanEval; supera Claude 3 Opus e GPT-4o em vários benchmarks, com exceção das tarefas de resolução de problemas matemáticos em linguagem natural; também apresenta forte desempenho em tarefas de visão, dando suporte a vários novos recursos, como transcrição de texto em imagem e geração de artefatos.
A new model that achieves state-of-the-art performance on several common benchmarks such as MMLU and HumanEval; it outperforms Claude 3 Opus and GPT-4o on several benchmarks with the exception of math word problem-solving tasks; achieves strong performance on vision tasks which also helps power several new features like image-text transcription and generation of artifacts.
Link do artigo
https://www.anthropic.com/news/claude-3-5-sonnet
Leia mais
https://discuss.pytorch.kr/t/gn-claude-3-5-sonnet-gpt4o/4665
https://x.com/AnthropicAI/status/1803790676988920098
DeepSeek-Coder-V2
Apresentação do artigo
Compete com modelos de código fechado em tarefas de geração de código e matemática; alcança 90,2% no HumanEval e 75,7% no MATH; segundo o relatório, esses resultados são superiores ao desempenho do GPT-4-Turbo-0409; inclui modelos de 16B e 236B parâmetros com comprimento de contexto de 128K.
Competes with closed-sourced models on code and math generation tasks; achieves 90.2% on HumanEval and 75.7% on MATH; these results are higher than GPT-4-Turbo-0409 performance according to their report; includes a 16B and 236B parameter model with 128K context length.
Resumo do artigo (Abstract)
Apresentamos o DeepSeek-Coder-V2, um modelo de linguagem para código open source do tipo Mixture-of-Experts (MoE) que alcança desempenho comparável ao GPT4-Turbo em tarefas específicas de código. Especificamente, o DeepSeek-Coder-V2 passa por pré-treinamento adicional a partir de um checkpoint intermediário do DeepSeek-V2, com mais 6 trilhões de tokens. Por meio desse pré-treinamento contínuo, o DeepSeek-Coder-V2 melhora substancialmente as capacidades de programação e raciocínio matemático do DeepSeek-V2, ao mesmo tempo em que mantém desempenho comparável em tarefas gerais de linguagem. Em comparação com o DeepSeek-Coder-33B, o DeepSeek-Coder-V2 demonstra avanços significativos em vários aspectos de tarefas relacionadas a código, bem como em raciocínio e capacidades gerais. Além disso, o DeepSeek-Coder-V2 expande o suporte a linguagens de programação de 86 para 338, enquanto amplia o comprimento de contexto de 16K para 128K. Em avaliações de benchmarks padrão, o DeepSeek-Coder-V2 alcançou desempenho superior ao de modelos de código fechado, como GPT4-Turbo, Claude 3 Opus e Gemini 1.5 Pro, em benchmarks de código e matemática.
We present DeepSeek-Coder-V2, an open-source Mixture-of-Experts (MoE) code language model that achieves performance comparable to GPT4-Turbo in code-specific tasks. Specifically, DeepSeek-Coder-V2 is further pre-trained from an intermediate checkpoint of DeepSeek-V2 with additional 6 trillion tokens. Through this continued pre-training, DeepSeek-Coder-V2 substantially enhances the coding and mathematical reasoning capabilities of DeepSeek-V2, while maintaining comparable performance in general language tasks. Compared to DeepSeek- Coder-33B, DeepSeek-Coder-V2 demonstrates significant advancements in various aspects of code-related tasks, as well as reasoning and general capabilities. Additionally, DeepSeek-Coder- V2 expands its support for programming languages from 86 to 338, while extending the context length from 16K to 128K. In standard benchmark evaluations, DeepSeek-Coder-V2 achieves superior performance compared to closed-source models such as GPT4-Turbo, Claude 3 Opus, and Gemini 1.5 Pro in coding and math benchmarks.
Link do artigo
https://github.com/deepseek-ai/DeepSeek-Coder-V2/blob/main/paper.pdf
Leia mais
https://github.com/deepseek-ai/DeepSeek-Coder-V2
https://x.com/omarsar0/status/1803078095219417475
TextGrad: "Diferenciação" automática via texto / TextGrad: Automatic "Differentiation" via Text
Apresentação do artigo
Uma nova estrutura para diferenciação automática por meio de retropropagação sobre feedback textual fornecido por um LLM, melhorando componentes individuais e usando a linguagem natural para ajudar a otimizar o grafo computacional; funciona ao fornecer uma função objetivo sem ajustar prompts ou componentes; afirma alcançar as melhores pontuações no LeetCodeHard e desempenho SoTA no GPQA quando combinado com GPT4o.
A new framework for automatic differentiation through backpropagation on textual feedback provided by an LLM; this improves individual components and the natural language helps to optimize the computation graph; it works by providing an objective function without tuning prompts or components; claims to achieve LeetCodeHard best scores and SoTA performance on GPQA when combined with GPT4o.
Resumo do artigo (Abstract)
A IA está passando por uma mudança de paradigma, com avanços alcançados por sistemas que orquestram vários grandes modelos de linguagem (LLMs) e outros componentes complexos. Como resultado, desenvolver métodos de otimização automatizados e baseados em princípios para sistemas compostos de IA é um dos novos desafios mais importantes. As redes neurais enfrentaram um desafio semelhante em seus primeiros dias, até que a retropropagação e a diferenciação automática transformaram a área ao tornar a otimização turnkey. Inspirados por isso, apresentamos o TextGrad, uma estrutura poderosa que realiza “diferenciação” automática via texto. O TextGrad retropropaga feedback textual fornecido por LLMs para melhorar componentes individuais de um sistema composto de IA. Em nossa estrutura, os LLMs fornecem sugestões ricas, gerais e em linguagem natural para otimizar variáveis em grafos computacionais, que vão de trechos de código a estruturas moleculares. O TextGrad segue a sintaxe e as abstrações do PyTorch e é flexível e fácil de usar. Ele funciona pronto para uso em uma variedade de tarefas, nas quais os usuários precisam apenas fornecer a função objetivo, sem ajustar componentes ou prompts da estrutura. Demonstramos a eficácia e a generalidade do TextGrad em uma ampla gama de aplicações, de resposta a perguntas e otimização de moléculas até planejamento de radioterapia. Sem modificar a estrutura, o TextGrad melhora a acurácia zero-shot do GPT-4o em Google-Proof Question Answering de $51%$ para $55%$, gera um ganho relativo de desempenho de $20%$ na otimização de soluções para problemas de programação LeetCode-Hard, melhora prompts para raciocínio, projeta novas pequenas moléculas semelhantes a fármacos com ligação in silico desejável e cria planos de tratamento em radio-oncologia com alta especificidade. O TextGrad estabelece uma base para acelerar o desenvolvimento da próxima geração de sistemas de IA.
AI is undergoing a paradigm shift, with breakthroughs achieved by systems orchestrating multiple large language models (LLMs) and other complex components. As a result, developing principled and automated optimization methods for compound AI systems is one of the most important new challenges. Neural networks faced a similar challenge in its early days until backpropagation and automatic differentiation transformed the field by making optimization turn-key. Inspired by this, we introduce TextGrad, a powerful framework performing automatic ``differentiation'' via text. TextGrad backpropagates textual feedback provided by LLMs to improve individual components of a compound AI system. In our framework, LLMs provide rich, general, natural language suggestions to optimize variables in computation graphs, ranging from code snippets to molecular structures. TextGrad follows PyTorch's syntax and abstraction and is flexible and easy-to-use. It works out-of-the-box for a variety of tasks, where the users only provide the objective function without tuning components or prompts of the framework. We showcase TextGrad's effectiveness and generality across a diverse range of applications, from question answering and molecule optimization to radiotherapy treatment planning. Without modifying the framework, TextGrad improves the zero-shot accuracy of GPT-4o in Google-Proof Question Answering from $51%$ to $55%$, yields $20%$ relative performance gain in optimizing LeetCode-Hard coding problem solutions, improves prompts for reasoning, designs new druglike small molecules with desirable in silico binding, and designs radiation oncology treatment plans with high specificity. TextGrad lays a foundation to accelerate the development of the next-generation of AI systems.
Link do artigo
https://arxiv.org/abs/2406.07496v1
Leia mais
https://x.com/james_y_zou/status/1800917174124740667
Modelos de linguagem de contexto longo podem substituir busca, RAG, SQL e mais? / Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More?
Introdução ao artigo
Realiza uma análise aprofundada do desempenho de LLMs de contexto longo em recuperação e raciocínio em contexto; primeiro apresenta um benchmark com tarefas do mundo real que exigem contexto de 1 milhão de tokens; relata que LLMs de contexto longo podem competir com sistemas de busca e RAG de ponta, sem qualquer treinamento explícito nas tarefas; sugere que o raciocínio composicional (necessário em tarefas semelhantes a SQL) ainda é desafiador para esses LLMs; também reforça a necessidade de pesquisa contínua em estratégias avançadas de prompting, já que observaram ganhos significativos de desempenho ao aplicá-las em problemas de contexto longo.
Conducts a deep performance analysis of long-context LLMs on in-context retrieval and reasoning; they first present a benchmark with real-world tasks requiring 1M token context; reports that long-context LLMs can rival state-of-the-art retrieval and RAG systems, without any explicit training on the tasks; suggests that compositional reasoning (required in SQL-like tasks) is still challenging for these LLMs; they also encourage the need for continued research on advanced prompting strategies as they noted significant boosts in performance when applying them for long context problems.
Resumo do artigo (Abstract)
Os modelos de linguagem de contexto longo (LCLM) têm o potencial de revolucionar nossa abordagem a tarefas tradicionalmente dependentes de ferramentas externas, como sistemas de busca ou bancos de dados. Aproveitar a capacidade dos LCLMs de ingerir e processar nativamente corpora inteiros de informação oferece diversas vantagens. Isso melhora a facilidade de uso ao eliminar a necessidade de conhecimento especializado sobre ferramentas, fornece uma modelagem robusta de ponta a ponta que minimiza erros em cascata em pipelines complexos e permite a aplicação de técnicas sofisticadas de prompting em todo o sistema. Para avaliar essa mudança de paradigma, apresentamos o LOFT, um benchmark de tarefas do mundo real que exigem contextos de até milhões de tokens, projetado para avaliar o desempenho de LCLMs em recuperação e raciocínio no contexto. Nossos resultados revelam a surpreendente capacidade dos LCLMs de rivalizar com sistemas de busca e RAG de ponta, apesar de nunca terem sido explicitamente treinados para essas tarefas. No entanto, os LCLMs ainda enfrentam desafios em áreas como raciocínio composicional, necessário em tarefas semelhantes a SQL. Em particular, as estratégias de prompting influenciam significativamente o desempenho, destacando a necessidade de pesquisa contínua à medida que os comprimentos de contexto aumentam. No geral, o LOFT fornece um campo de testes rigoroso para LCLMs, demonstrando seu potencial para substituir paradigmas existentes e enfrentar novas tarefas à medida que as capacidades dos modelos evoluem.
Long-context language models (LCLMs) have the potential to revolutionize our approach to tasks traditionally reliant on external tools like retrieval systems or databases. Leveraging LCLMs' ability to natively ingest and process entire corpora of information offers numerous advantages. It enhances user-friendliness by eliminating the need for specialized knowledge of tools, provides robust end-to-end modeling that minimizes cascading errors in complex pipelines, and allows for the application of sophisticated prompting techniques across the entire system. To assess this paradigm shift, we introduce LOFT, a benchmark of real-world tasks requiring context up to millions of tokens designed to evaluate LCLMs' performance on in-context retrieval and reasoning. Our findings reveal LCLMs' surprising ability to rival state-of-the-art retrieval and RAG systems, despite never having been explicitly trained for these tasks. However, LCLMs still face challenges in areas like compositional reasoning that are required in SQL-like tasks. Notably, prompting strategies significantly influence performance, emphasizing the need for continued research as context lengths grow. Overall, LOFT provides a rigorous testing ground for LCLMs, showcasing their potential to supplant existing paradigms and tackle novel tasks as model capabilities scale.
Link do artigo
https://arxiv.org/abs/2406.13121
Leia mais
https://github.com/google-deepmind/loft
https://x.com/omarsar0/status/1804184820806766875
PlanRAG: geração aumentada por recuperação com planejamento prévio para grandes modelos de linguagem generativos como tomadores de decisão / PlanRAG: A Plan-then-Retrieval Augmented Generation for Generative Large Language Models as Decision Makers
Apresentação do artigo
Melhora a tomada de decisão com uma nova técnica de RAG chamada planejamento iterativo antes do RAG (PlanRAG); envolve duas etapas: 1) um LM gera o plano para a tomada de decisão ao examinar o esquema dos dados e as perguntas e 2) o recuperador gera as consultas para análise dos dados; a etapa final verifica se é necessário um novo plano para análise adicional e itera nas etapas anteriores ou toma uma decisão com base nos dados; o PlanRAG mostrou ser mais eficaz do que o RAG iterativo nas tarefas de Decision QA propostas.
Enhances decision making with a new RAG technique called iterative plan-then-RAG (PlanRAG); involves two steps: 1) an LM generates the plan for decision making by examining data schema and questions and 2) the retriever generates the queries for data analysis; the final step checks if a new plan for further analysis is needed and iterates on previous steps or makes a decision on the data; PlanRAG is found to be more effective than iterative RAG on the proposed Decision QA tasks.
Resumo do artigo (Abstract)
Neste artigo, os autores investigam o uso de LLMs como solução para tomada de decisão que exige análise de dados complexa. Eles definem Decision QA como a tarefa de responder qual é a melhor decisão, $d_{best}$, para uma pergunta de tomada de decisão $Q$, regras de negócio $R$ e um banco de dados $D$. Como não existe um benchmark capaz de avaliar Decision QA, propõem o benchmark DQA. Esse benchmark tem dois cenários, Locating e Building, construídos a partir de dois jogos de vídeo game (Europa Universalis IV e Victoria 3) que têm praticamente o mesmo objetivo de Decision QA. Para lidar com Decision QA de forma eficaz, os autores também propõem uma nova técnica de RAG chamada iterative plan-then-retrieval augmented generation (PlanRAG). O LM baseado em PlanRAG gera primeiro um plano para a tomada de decisão, e no segundo passo o recuperador gera as consultas para análise de dados. O método proposto supera o método iterativo de RAG estado da arte em 15,8% no cenário Locating e em 7,4% no cenário Building, respectivamente. O código e o benchmark estão disponíveis em https://github.com/myeon9h/PlanRAG.
In this paper, we conduct a study to utilize LLMs as a solution for decision making that requires complex data analysis. We define Decision QA as the task of answering the best decision, $d_{best}$, for a decision-making question $Q$, business rules $R$ and a database $D$. Since there is no benchmark that can examine Decision QA, we propose Decision QA benchmark, DQA. It has two scenarios, Locating and Building, constructed from two video games (Europa Universalis IV and Victoria 3) that have almost the same goal as Decision QA. To address Decision QA effectively, we also propose a new RAG technique called the iterative plan-then-retrieval augmented generation (PlanRAG). Our PlanRAG-based LM generates the plan for decision making as the first step, and the retriever generates the queries for data analysis as the second step. The proposed method outperforms the state-of-the-art iterative RAG method by 15.8% in the Locating scenario and by 7.4% in the Building scenario, respectively. We release our code and benchmark at https://github.com/myeon9h/PlanRAG.
Link do artigo
https://arxiv.org/abs/2406.12430
Leia mais
https://github.com/myeon9h/PlanRAG
https://x.com/omarsar0/status/1803262374574448757
Não memorize como um peixinho dourado! Mitigando a memorização em LLMs generativos / Be like a Goldfish, Don't Memorize! Mitigating Memorization in Generative LLMs
Introdução ao artigo
Este trabalho apresenta uma modificação no objetivo de previsão do próximo token, chamada goldfish loss, para ajudar a mitigar a geração literal de dados de treino memorizados; usa uma técnica simples que exclui um subconjunto pseudoaleatório de tokens de treino durante o treinamento; os autores mostram que a goldfish loss resiste à memorização e mantém o modelo útil; no entanto, talvez seja necessário treinar por mais tempo para aprender de forma mais eficaz a partir dos dados de treino.
Presents a modification of the next-token prediction objective called goldfish loss to help mitigate the verbatim generation of memorized training data; it uses a simple technique that excludes a pseudorandom subset of training tokens at training time; they show that the goldfish loss resists memorization and keeps the model useful; however, it may need to train for longer to more effectively learn from the training data.
Resumo do artigo(Abstract)
Grandes modelos de linguagem podem memorizar e repetir seus dados de treinamento, gerando riscos de privacidade e de direitos autorais. Para mitigar a memorização, os autores introduzem uma modificação sutil no objetivo de treinamento do próximo token, chamada goldfish loss. Durante o treinamento, um subconjunto de tokens amostrado aleatoriamente é excluído do cálculo da perda. Esses tokens removidos não são memorizados pelo modelo, o que impede a reprodução literal de uma cadeia completa de tokens do conjunto de treinamento. Os autores realizaram experimentos extensivos treinando modelos Llama-2 em escala de bilhões de parâmetros, tanto pré-treinados quanto treinados do zero, e demonstraram reduções significativas na memorização extraível com pouco ou nenhum impacto nos benchmarks downstream.
Large language models can memorize and repeat their training data, causing privacy and copyright risks. To mitigate memorization, we introduce a subtle modification to the next-token training objective that we call the goldfish loss. During training, a randomly sampled subset of tokens are excluded from the loss computation. These dropped tokens are not memorized by the model, which prevents verbatim reproduction of a complete chain of tokens from the training set. We run extensive experiments training billion-scale Llama-2 models, both pre-trained and trained from scratch, and demonstrate significant reductions in extractable memorization with little to no impact on downstream benchmarks.
Link do artigo
https://arxiv.org/abs/2406.10209
Leia mais
https://github.com/ahans30/goldfish-loss
https://x.com/omarsar0/status/1802729440163647754
Acessando soluções de olimpíadas de matemática em nível GPT-4 via autoaperfeiçoamento com árvore de Monte Carlo usando LLaMa-3 8B / Accessing GPT-4 level Mathematical Olympiad Solutions via Monte Carlo Tree Self-refine with LLaMa-3 8B
Introdução ao artigo
Foi relatado que um método que integra LLMs com Monte Carlo Tree Search alcançou soluções de olimpíadas de matemática em nível GPT-4. Essa abordagem se concentra em melhorar o desempenho de raciocínio matemático do sistema por meio de capacidades como exploração sistemática, autoaperfeiçoamento e autoavaliação.
Report to have achieved GPT-4 level mathematical olympiad solution using an approach that integrates LLMs with Monte Carlo Tree Search; this approach focuses on enhancing the mathematical reasoning performance of the system through capabilities such as systematic exploration, self-refinement, and self-evaluation.
Resumo do artigo(Abstract)
Este white paper apresenta o algoritmo MCT Self-Refine (MCTSr), uma integração inovadora de Large Language Models (LLMs) com Monte Carlo Tree Search (MCTS), projetada para melhorar o desempenho em tarefas complexas de raciocínio matemático. Em particular, ao abordar os problemas de precisão e confiabilidade dos LLMs em raciocínio estratégico e matemático, o MCTSr aprimora a estrutura de tomada de decisão dentro dos LLMs ao aproveitar exploração sistemática e mecanismos heurísticos de auto-refinamento. O algoritmo constrói uma árvore de busca de Monte Carlo por meio de um processo iterativo de Selection, self-refine, self-evaluation e Backpropagation, utilizando uma fórmula aprimorada de Upper Confidence Bound (UCB) para otimizar o equilíbrio entre exploração e aproveitamento. Experimentos extensivos demonstraram a eficácia do MCTSr na resolução de problemas matemáticos de nível olímpico, aumentando significativamente as taxas de sucesso em vários conjuntos de dados, incluindo GSM8K, GSM Hard, MATH e benchmarks de nível olímpico como Math Odyssey, AIME e OlympiadBench. Este estudo avança a aplicação de LLMs em tarefas complexas de raciocínio e estabelece uma base para futuras integrações de IA, aumentando a precisão e a confiabilidade da tomada de decisão em aplicações baseadas em LLMs.
This paper introduces the MCT Self-Refine (MCTSr) algorithm, an innovative integration of Large Language Models (LLMs) with Monte Carlo Tree Search (MCTS), designed to enhance performance in complex mathematical reasoning tasks. Addressing the challenges of accuracy and reliability in LLMs, particularly in strategic and mathematical reasoning, MCTSr leverages systematic exploration and heuristic self-refine mechanisms to improve decision-making frameworks within LLMs. The algorithm constructs a Monte Carlo search tree through iterative processes of Selection, self-refine, self-evaluation, and Backpropagation, utilizing an improved Upper Confidence Bound (UCB) formula to optimize the exploration-exploitation balance. Extensive experiments demonstrate MCTSr's efficacy in solving Olympiad-level mathematical problems, significantly improving success rates across multiple datasets, including GSM8K, GSM Hard, MATH, and Olympiad-level benchmarks, including Math Odyssey, AIME, and OlympiadBench. The study advances the application of LLMs in complex reasoning tasks and sets a foundation for future AI integration, enhancing decision-making accuracy and reliability in LLM-driven applications.
Link do artigo
https://arxiv.org/abs/2406.07394v2
Leia mais
https://x.com/rohanpaul_ai/status/1801259208341373013
De RAGs a parâmetros ricos: investigando como modelos de linguagem utilizam conhecimento externo em vez de informação paramétrica para consultas factuais / From RAGs to rich parameters: Probing how language models utilize external knowledge over parametric information for factual queries
Introdução ao artigo
Ao investigar mais de perto como LLMs utilizam conhecimento externo em vez de informação paramétrica para consultas factuais, descobriu-se que, em um pipeline de RAG, os LLMs tendem fortemente a seguir um “atalho”, utilizando apenas a informação de contexto para responder à pergunta e dependendo minimamente de sua memória paramétrica.
Investigates more closely how LLMs utilize external knowledge over parametric information for factual queries; finds that in a RAG pipeline, LLMs take a “shortcut” and display a strong bias towards utilizing only the context information to answer the question, while relying minimally on their parametric memory.
Resumo do artigo (Abstract)
Retrieval Augmented Generation (RAG) enriquece a capacidade dos modelos de linguagem de raciocinar usando contexto externo para complementar respostas a um determinado prompt do usuário. Essa abordagem ganhou popularidade devido a aplicações práticas de modelos de linguagem em áreas como busca, perguntas e respostas e chatbots. No entanto, a natureza exata de como essa abordagem funciona ainda não é claramente compreendida. Neste artigo, examinamos mecanicamente o pipeline de RAG para destacar que os modelos de linguagem seguem um atalho e têm um forte viés em direção ao uso apenas da informação de contexto para responder à pergunta, dependendo minimamente de sua memória paramétrica. Investigamos esse comportamento mecanístico nos modelos de linguagem com: (i) Causal Mediation Analysis, para mostrar que a memória paramétrica é minimamente utilizada ao responder a uma pergunta, e (ii) Attention Contributions and Knockouts, para mostrar que o residual stream do último token não é enriquecido pelo token de assunto na pergunta, mas sim por outros tokens informativos no contexto. Constatamos que esse comportamento pronunciado de atalho é verdadeiro tanto na família de modelos LLaMa quanto na família Phi.
Retrieval Augmented Generation (RAG) enriches the ability of language models to reason using external context to augment responses for a given user prompt. This approach has risen in popularity due to practical applications in various applications of language models in search, question/answering, and chat-bots. However, the exact nature of how this approach works isn't clearly understood. In this paper, we mechanistically examine the RAG pipeline to highlight that language models take shortcut and have a strong bias towards utilizing only the context information to answer the question, while relying minimally on their parametric memory. We probe this mechanistic behavior in language models with: (i) Causal Mediation Analysis to show that the parametric memory is minimally utilized when answering a question and (ii) Attention Contributions and Knockouts to show that the last token residual stream do not get enriched from the subject token in the question, but gets enriched from other informative tokens in the context. We find this pronounced shortcut behaviour true across both LLaMa and Phi family of models.
Link do artigo
https://arxiv.org/abs/2406.12824
Leia mais
https://x.com/omarsar0/status/1803254134289895555
Open-Sora
Introdução ao artigo
Um modelo open source de geração de vídeo capaz de gerar vídeos 720p de 16 segundos; é um modelo de 1,1 bilhão de parâmetros treinado com mais de 30 milhões de dados e agora oferece suporte a image-to-video; apresenta um modelo de difusão aprimorado e uma rede de compressão de vídeo para compressão espacial e temporal; aumenta a controlabilidade das gerações e reduz os custos de treinamento.
An open-source video generation model that can generate 16-second 720p videos; it’s a 1.1B parameter model trained on more than 30m data and now supports image-to-video; presents an enhanced diffusion model and video compression network for spatial and temporal compression; increases controllability of generations and reduces training costs.
Link do artigo
[IMG] Open-Sora 1.2 Report|1028x812
Leia mais
https://discuss.pytorch.kr/t/open-sora-feat-hpc-ai/3794
https://x.com/omarsar0/status/1803176105010171957
Busca em árvore para agentes de modelos de linguagem / Tree Search for Language Model Agents
Introdução ao artigo
Propõe um algoritmo de busca em árvore em tempo de inferência para que agentes de LM realizem exploração e possibilitem raciocínio em múltiplas etapas; ele foi testado em ambientes web interativos e aplicado ao GPT-4o para melhorar significativamente o desempenho; demonstra que o desempenho escala com o aumento da computação em tempo de teste.
Proposes an inference-time tree search algorithm for LM agents to perform exploration and enable multi-step reasoning; it’s tested on interactive web environments and applied to GPT-4o to significantly improve performance; demonstrates that performance scales when increasing test-time compute.
Resumo do artigo (Abstract)
Agentes autônomos movidos por modelos de linguagem (LMs) têm demonstrado potencial em sua capacidade de executar tarefas de tomada de decisão, como automação da web. No entanto, um desafio fundamental permanece: LMs, otimizados principalmente para compreensão e geração de linguagem natural, têm dificuldade com raciocínio em múltiplas etapas, planejamento e uso de feedback do ambiente ao tentar resolver tarefas computacionais realistas. Para enfrentar isso, propomos um algoritmo de busca em tempo de inferência para agentes de LM realizarem explicitamente exploração e planejamento em múltiplas etapas em ambientes web interativos. Nossa abordagem é uma forma de busca em árvore best-first que opera dentro do espaço real do ambiente e é complementar à maioria dos agentes de ponta existentes. É o primeiro algoritmo de busca em árvore para agentes de LM que demonstra eficácia em tarefas web realistas. No desafiador benchmark VisualWebArena, aplicar nosso algoritmo de busca sobre um agente GPT-4o produz um aumento relativo de 39,7% na taxa de sucesso em comparação com a mesma linha de base sem busca, estabelecendo uma taxa de sucesso de estado da arte de 26,4%. No WebArena, a busca também gera uma melhoria relativa de 28,0% sobre um agente de linha de base, alcançando uma taxa de sucesso competitiva de 19,2%. Nossos experimentos destacam a eficácia da busca para agentes web e demonstramos que o desempenho escala com o aumento da computação em tempo de teste. Realizamos uma análise aprofundada dos resultados para destacar as melhorias trazidas pela busca, as limitações e direções promissoras para trabalhos futuros.
Autonomous agents powered by language models (LMs) have demonstrated promise in their ability to perform decision-making tasks such as web automation. However, a fundamental challenge remains: LMs, primarily optimized for natural language understanding and generation, struggle with multi-step reasoning, planning, and using environmental feedback when attempting to solve realistic computer tasks. Towards addressing this, we propose an inference-time search algorithm for LM agents to explicitly perform exploration and multi-step planning in interactive web environments. Our approach is a form of best-first tree search that operates within the actual environment space, and is complementary with most existing state-of-the-art agents. It is the first tree search algorithm for LM agents that shows effectiveness on realistic web tasks. On the challenging VisualWebArena benchmark, applying our search algorithm on top of a GPT-4o agent yields a 39.7% relative increase in success rate compared to the same baseline without search, setting a state-of-the-art success rate of 26.4%. On WebArena, search also yields a 28.0% relative improvement over a baseline agent, setting a competitive success rate of 19.2%. Our experiments highlight the effectiveness of search for web agents, and we demonstrate that performance scales with increased test-time compute. We conduct a thorough analysis of our results to highlight improvements from search, limitations, and promising directions for future work.
Link do artigo
https://jykoh.com/search-agents/paper.pdf
Leia mais
https://jykoh.com/search-agents
https://x.com/kohjingyu/status/1803604487216701653
Texto original
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-c0f
Este texto foi resumido com um modelo GPT, portanto pode conter erros. Consulte também o texto original no link abaixo! Se você encontrar algum trecho estranho ou incorreto durante a leitura, por favor avise nos comentários. 🤗
⚠️Anúncio⚠️: este texto organizado pela 🔥Comunidade Coreana de Usuários de PyTorch🇰🇷 foi útil para você? Se cadastar como membro, enviaremos os principais textos por e-mail💌! (O padrão é Weekly, mas também é possível mudar para Daily.)
Ainda não há comentários.