04] Os principais artigos de ML desta semana (Top ML Papers of the Week)

(discuss.pytorch.kr)

1 pontos por ninebow 2024-02-05 | Ainda não há comentários. | Compartilhar no WhatsApp

Visão geral

Fizemos uma tradução automática dos artigos sobre papers de ML publicados semanalmente pela DAIR.AI.
Observando as tendências dos artigos selecionados nesta semana, destacam-se as pesquisas sobre grandes modelos de linguagem (Large Language Models, LLMs) e suas variações. Com base em títulos como "OLMo", "Advances in Multimodal LLMs", "Corrective RAG", "LLMs for Mathematical Reasoning", "Compression Algorithms for LLMs", "MoE-LLaVA", "Rephrasing the Web", "Redefining Retrieval in RAG", "Hallucination in LVLMs" e "SliceGPT", é possível ver que há intensa atividade de pesquisa focada em melhorar o desempenho dos modelos de linguagem, ampliar suas aplicações e aumentar sua eficiência.
Essa tendência de pesquisa pode ser interpretada como um reflexo dos esforços contínuos da academia e da indústria para superar os limites das tecnologias de processamento de linguagem e resolver problemas cada vez mais complexos. Recentemente, os LLMs vêm expandindo seu campo de aplicação para além do simples processamento de texto, alcançando áreas diversas como raciocínio matemático complexo, processamento de dados multimodais e mecanismos mais sofisticados de recuperação e reconstrução de informação. Além disso, devido ao grande tamanho e à complexidade desses modelos, técnicas como compressão de modelos vêm se tornando elementos centrais para permitir sua implantação e uso de forma mais eficiente em ambientes reais. Há uma tendência de valorização dessas técnicas especialmente quando é necessário operar modelos de grande porte com recursos relativamente limitados.
Além disso, as pesquisas sobre 'Multimodal LLMs' e 'MoE-LLaVA' indicam avanços em formas de integrar e processar vários tipos de dados além de texto (por exemplo, imagens, sons etc.), o que mostra o potencial de sistemas de inteligência artificial compreenderem e utilizarem com mais riqueza as informações do mundo real. Como técnicas para aumentar a interpretabilidade e a confiabilidade dos modelos, 'Corrective RAG' e 'Redefining Retrieval in RAG' podem ser vistas como tentativas de melhorar o processo de raciocínio dos modelos e a precisão de seus resultados, enquanto 'Hallucination in LVLMs' e 'Rephrasing the Web' representam pesquisas voltadas a elevar a qualidade do conteúdo gerado pelos modelos. Todas essas tendências são avaliadas como sinais que antecipam o surgimento de sistemas de inteligência artificial ainda mais inteligentes e sofisticados em um futuro próximo.

OLMo: acelerando a ciência dos modelos de linguagem / OLMo: Accelerating the Science of Language Models

Apresentação do artigo

Introduz o modelo aberto de linguagem (OLMo), um modelo de 7b parâmetros que inclui código de treinamento aberto, dados abertos, pesos completos do modelo, código de avaliação e código de fine-tuning, demonstrando forte desempenho em muitas tarefas generativas; também existe uma versão menor, o olmo 1b.

Introduces open language model (olmo), a 7b parameter model; it includes open training code, open data, full model weights, evaluation code, and fine-tuning code; it shows strong performance on many generative tasks; there is also a smaller version of it, olmo 1b.

Resumo do artigo (Abstract)

Os modelos de linguagem (LMs) se tornaram onipresentes tanto na pesquisa em NLP quanto em produtos comerciais. À medida que sua importância comercial cresceu rapidamente, os modelos mais poderosos passaram a ser fechados, protegidos por interfaces proprietárias, com detalhes importantes sobre seus dados de treinamento, arquiteturas e desenvolvimento não divulgados. Dada a importância desses detalhes para o estudo científico desses modelos, incluindo seus vieses e riscos potenciais, acreditamos que é essencial que a comunidade de pesquisa tenha acesso a LMs poderosos e verdadeiramente abertos. Para isso, este relatório técnico detalha a primeira versão do OLMo, um modelo de linguagem verdadeiramente aberto e de ponta, bem como seu framework para construir e estudar a ciência da modelagem de linguagem. Diferentemente da maioria dos esforços anteriores, que liberaram apenas os pesos do modelo e o código de inferência, estamos disponibilizando o OLMo e todo o framework, incluindo os dados de treinamento e os códigos de treinamento e avaliação. Esperamos que esta versão fortaleça e dê mais poder à comunidade de pesquisa aberta, inspirando uma nova onda de inovação.

Language models (LMs) have become ubiquitous in both NLP research and in commercial product offerings. As their commercial importance has surged, the most powerful models have become closed off, gated behind proprietary interfaces, with important details of their training data, architectures, and development undisclosed. Given the importance of these details in scientifically studying these models, including their biases and potential risks, we believe it is essential for the research community to have access to powerful, truly open LMs. To this end, this technical report details the first release of OLMo, a state-of-the-art, truly Open Language Model and its framework to build and study the science of language modeling. Unlike most prior efforts that have only released model weights and inference code, we release OLMo and the whole framework, including training data and training and evaluation code. We hope this release will empower and strengthen the open research community and inspire a new wave of innovation.

Link do artigo

https://arxiv.org/abs/2402.00838

MM-LLM: avanços recentes em grandes modelos de linguagem multimodais / MM-LLMs: Recent Advances in MultiModal Large Language Models

Apresentação do artigo

Trata-se de um artigo de survey abrangente que descreve formulações de design para a arquitetura de modelos e o pipeline de treinamento em torno de grandes modelos de linguagem multimodais.

A comprehensive survey outlining design formulations for model architecture and training pipeline around multimodal large language models.

Resumo do artigo (Abstract)

Ao longo do último ano, os modelos multimodais de linguagem de grande porte (MM-LLMs) passaram por avanços substanciais, aprimorando LLMs prontos para uso para oferecer suporte a entradas ou saídas multimodais por meio de estratégias de treinamento com boa relação custo-benefício. Os modelos resultantes não apenas preservam as capacidades inerentes de raciocínio e tomada de decisão dos LLMs, mas também viabilizam uma ampla gama de tarefas multimodais. Neste artigo, os autores apresentam uma pesquisa abrangente com o objetivo de facilitar estudos adicionais sobre MM-LLMs. Especificamente, primeiro delineiam formulações gerais de design para a arquitetura do modelo e o pipeline de treinamento. Em seguida, apresentam breves introduções a $26$ MM-LLMs existentes, cada um caracterizado por suas formulações específicas. Além disso, revisam o desempenho dos MM-LLMs nos principais benchmarks e resumem receitas de treinamento importantes para aumentar a eficácia dos MM-LLMs. Por fim, exploram direções promissoras para MM-LLMs enquanto mantêm, em paralelo, um site de acompanhamento em tempo real dos desenvolvimentos mais recentes da área. Espera-se que esta pesquisa contribua para o avanço contínuo do campo dos MM-LLMs.

In the past year, MultiModal Large Language Models (MM-LLMs) have undergone substantial advancements, augmenting off-the-shelf LLMs to support MM inputs or outputs via cost-effective training strategies. The resulting models not only preserve the inherent reasoning and decision-making capabilities of LLMs but also empower a diverse range of MM tasks. In this paper, we provide a comprehensive survey aimed at facilitating further research of MM-LLMs. Specifically, we first outline general design formulations for model architecture and training pipeline. Subsequently, we provide brief introductions of $26$ existing MM-LLMs, each characterized by its specific formulations. Additionally, we review the performance of MM-LLMs on mainstream benchmarks and summarize key training recipes to enhance the potency of MM-LLMs. Lastly, we explore promising directions for MM-LLMs while concurrently maintaining a real-time tracking website for the latest developments in the field. We hope that this survey contributes to the ongoing advancement of the MM-LLMs domain.

Link do artigo

https://arxiv.org/abs/2401.13601

CRAG: geração aumentada por recuperação corretiva / Corrective Retrieval Augmented Generation

Introdução do artigo

Para melhorar a robustez da geração em sistemas RAG, é proposta a geração aumentada por recuperação corretiva (CRAG). A ideia central é implementar um componente de autocorreção para o recuperador e melhorar o aproveitamento dos documentos recuperados para a geração aumentada. O avaliador de recuperação ajuda a avaliar a qualidade geral dos documentos recuperados dada uma consulta, e o uso de busca na web e operações otimizadas de utilização de conhecimento pode melhorar a autocorreção automática e o uso eficiente dos documentos recuperados.

Proposes corrective retrieval augmented generation (CRAG) to improve the robustness of generation in a rag system; the core idea is to implement a self-correct component for the retriever and improve the utilization of retrieved documents for augmenting generation; the retrieval evaluator helps to assess the overall quality of retrieved documents given a query; using web search and optimized knowledge utilization operations can improve automatic self-correction and efficient utilization of retrieved documents.

Resumo do artigo (Abstract)

Os grandes modelos de linguagem (LLMs) inevitavelmente apresentam alucinações, já que a precisão dos textos gerados não pode ser garantida apenas pelo conhecimento paramétrico que eles encapsulam. Embora a geração aumentada por recuperação (RAG) seja um complemento prático aos LLMs, ela depende fortemente da relevância dos documentos recuperados, o que levanta preocupações sobre como o modelo se comporta quando a recuperação falha. Para isso, propomos a Corrective Retrieval Augmented Generation (CRAG) para melhorar a robustez da geração. Especificamente, foi projetado um avaliador leve de recuperação para avaliar a qualidade geral dos documentos recuperados para uma consulta, retornando um grau de confiança com base no qual diferentes ações de recuperação de conhecimento podem ser acionadas. Como a recuperação a partir de corpora estáticos e limitados só pode retornar documentos subótimos, buscas web em larga escala são utilizadas como uma extensão para complementar os resultados da recuperação. Além disso, foi projetado um algoritmo de decompor e depois recompor para os documentos recuperados, de modo a focar seletivamente nas informações-chave e filtrar as informações irrelevantes neles contidas. O CRAG é plug-and-play e pode ser acoplado sem dificuldades a várias abordagens baseadas em RAG. Experimentos em quatro conjuntos de dados que cobrem tarefas de geração de formato curto e longo mostram que o CRAG pode melhorar significativamente o desempenho de abordagens baseadas em RAG.

Large language models (LLMs) inevitably exhibit hallucinations since the accuracy of generated texts cannot be secured solely by the parametric knowledge they encapsulate. Although retrieval-augmented generation (RAG) is a practicable complement to LLMs, it relies heavily on the relevance of retrieved documents, raising concerns about how the model behaves if retrieval goes wrong. To this end, we propose the Corrective Retrieval Augmented Generation (CRAG) to improve the robustness of generation. Specifically, a lightweight retrieval evaluator is designed to assess the overall quality of retrieved documents for a query, returning a confidence degree based on which different knowledge retrieval actions can be triggered. Since retrieval from static and limited corpora can only return sub-optimal documents, large-scale web searches are utilized as an extension for augmenting the retrieval results. Besides, a decompose-then-recompose algorithm is designed for retrieved documents to selectively focus on key information and filter out irrelevant information in them. CRAG is plug-and-play and can be seamlessly coupled with various RAG-based approaches. Experiments on four datasets covering short- and long-form generation tasks show that CRAG can significantly improve the performance of RAG-based approaches.

Link do artigo

https://arxiv.org/abs/2401.15884

Grandes modelos de linguagem para raciocínio matemático: avanços e desafios / Large Language Models for Mathematical Reasoning: Progresses and Challenges

Apresentação do artigo

Apresenta uma visão geral do desenvolvimento de pesquisas em machine learning para raciocínio matemático e discute avanços, capacidades, limitações e aplicações para inspirar pesquisas contínuas sobre machine learning para matemática.

Introduces an overview of research developments in llms for mathematical reasoning; discusses advancements, capabilities, limitations, and applications to inspire ongoing research on llms for mathematics.

Resumo (Abstract)

O raciocínio matemático serve como um pilar para avaliar as capacidades cognitivas fundamentais da inteligência humana. Nos últimos tempos, houve um aumento notável no desenvolvimento de grandes modelos de linguagem (LLMs) voltados para a resolução automática de problemas matemáticos. No entanto, o panorama dos tipos de problemas matemáticos é vasto e variado, com técnicas orientadas a LLM sendo avaliadas em diversos conjuntos de dados e contextos. Essa diversidade torna difícil discernir os reais avanços e obstáculos dentro desse campo em rápida expansão. Esta survey procura abordar quatro dimensões centrais: i) uma exploração abrangente dos vários problemas matemáticos e seus conjuntos de dados correspondentes que foram investigados; ii) um exame do espectro de técnicas orientadas a LLM que foram propostas para a resolução de problemas matemáticos; iii) uma visão geral dos fatores e preocupações que afetam os LLMs na resolução de matemática; e iv) uma elucidação dos desafios persistentes dentro desse domínio. Até onde sabemos, esta survey está entre os primeiros exames extensivos do panorama dos LLMs no campo da matemática, oferecendo uma perspectiva holística sobre o estado atual, as conquistas e os desafios futuros nessa área em rápida evolução.

Mathematical reasoning serves as a cornerstone for assessing the fundamental cognitive capabilities of human intelligence. In recent times, there has been a notable surge in the development of Large Language Models (LLMs) geared towards the automated resolution of mathematical problems. However, the landscape of mathematical problem types is vast and varied, with LLM-oriented techniques undergoing evaluation across diverse datasets and settings. This diversity makes it challenging to discern the true advancements and obstacles within this burgeoning field. This survey endeavors to address four pivotal dimensions: i) a comprehensive exploration of the various mathematical problems and their corresponding datasets that have been investigated; ii) an examination of the spectrum of LLM-oriented techniques that have been proposed for mathematical problem-solving; iii) an overview of factors and concerns affecting LLMs in solving math; and iv) an elucidation of the persisting challenges within this domain. To the best of our knowledge, this survey stands as one of the first extensive examinations of the landscape of LLMs in the realm of mathematics, providing a holistic perspective on the current state, accomplishments, and future challenges in this rapidly evolving field.

Link do artigo

https://arxiv.org/abs/2402.00157

Pesquisa abrangente sobre algoritmos de compressão para modelos de linguagem / A Comprehensive Survey of Compression Algorithms for Language Models

Introdução do artigo

Aborda algoritmos de compressão como poda, quantização, destilação de conhecimento, aproximação de baixa ordem, compartilhamento de parâmetros e projeto eficiente de arquitetura.

Covers compression algorithms like pruning, quantization, knowledge distillation, low-rank approximation, parameter sharing, and efficient architecture design.

Resumo do artigo (Abstract)

Como podemos comprimir modelos de linguagem sem sacrificar a precisão? O número de algoritmos de compressão para modelos de linguagem está crescendo rapidamente para aproveitar os avanços notáveis dos modelos de linguagem recentes sem os efeitos colaterais causados por seu tamanho gigantesco, como aumento das emissões de carbono e altos custos de manutenção. Embora inúmeros algoritmos de compressão tenham mostrado progresso notável na compressão de modelos de linguagem, ironicamente tornou-se difícil captar novas tendências e identificar os conceitos fundamentais por trás delas devido ao número excessivo de algoritmos. Neste artigo, os autores investigam e resumem diversos algoritmos de compressão, incluindo poda, quantização, destilação de conhecimento, aproximação de baixa ordem, compartilhamento de parâmetros e projeto eficiente de arquitetura. Eles não apenas resumem a tendência geral dos diversos algoritmos de compressão, mas também selecionam algoritmos representativos e fornecem análises aprofundadas sobre eles. O artigo discute o valor de cada categoria de algoritmos de compressão e as propriedades desejáveis de algoritmos de compressão de baixo custo, que têm grande impacto com o surgimento dos grandes modelos de linguagem. Por fim, apresenta tópicos promissores de pesquisa futura com base nos resultados da pesquisa.

How can we compress language models without sacrificing accuracy? The number of compression algorithms for language models is rapidly growing to benefit from remarkable advances of recent language models without side effects due to the gigantic size of language models, such as increased carbon emissions and expensive maintenance fees. While numerous compression algorithms have shown remarkable progress in compressing language models, it ironically becomes challenging to capture emerging trends and identify the fundamental concepts underlying them due to the excessive number of algorithms. In this paper, we survey and summarize diverse compression algorithms including pruning, quantization, knowledge distillation, low-rank approximation, parameter sharing, and efficient architecture design. We not only summarize the overall trend of diverse compression algorithms but also select representative algorithms and provide in-depth analyses of them. We discuss the value of each category of compression algorithms, and the desired properties of low-cost compression algorithms which have a significant impact due to the emergence of large language models. Finally, we introduce promising future research topics based on our survey results.

Link do artigo

https://arxiv.org/abs/2401.15347

MoE-LLaVA: mistura de especialistas para grandes modelos vision-language / MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

Introdução do artigo

Emprega ajuste com mistura de especialistas para grandes modelos vision-language, construindo um modelo esparso com redução substancial de parâmetros a um custo computacional constante; essa abordagem também ajuda a resolver a degradação de desempenho associada ao aprendizado multimodal e à esparsidade do modelo.

Employs mixture of experts tuning for large vision-language models which constructs a sparse model with a substantial reduction in parameters with a constant computational cost; this approach also helps to address performance degradation associated with multi-modal learning and model sparsity.

Resumo do artigo (Abstract)

No caso dos grandes modelos de visão-linguagem (LVLMs), escalar o modelo pode melhorar o desempenho de forma eficaz. No entanto, expandir os parâmetros do modelo aumenta significativamente os custos de treinamento e inferência, já que todos os parâmetros do modelo são ativados para cada token no cálculo. Neste trabalho, propomos o MoE-tuning, uma nova estratégia de treinamento para LVLMs, capaz de construir um modelo esparso com um número enorme de parâmetros, mas com custo computacional constante, além de lidar de forma eficaz com a queda de desempenho normalmente associada ao aprendizado multimodal e à esparsidade do modelo. Além disso, apresentamos o framework MoE-LLaVA, uma arquitetura de LVLM esparsa baseada em MoE. Esse framework ativa exclusivamente os top-k especialistas por meio de roteadores durante a implantação, mantendo os demais especialistas inativos. Experimentos extensivos da Unity destacaram as excelentes capacidades do MoE-LLaVA em compreensão visual e seu potencial para reduzir alucinações nas saídas do modelo. Notavelmente, com apenas 3 bilhões de parâmetros ativados de forma esparsa, o MoE-LLaVA demonstrou desempenho comparável ao LLaVA-1.5-7B em vários conjuntos de dados de compreensão visual, e até superou o LLaVA-1.5-13B em benchmarks de alucinação de objetos. Com o MoE-LLaVA, a Unity busca estabelecer uma linha de base para LVLMs esparsos e fornecer insights valiosos para pesquisas futuras no desenvolvimento de sistemas de aprendizado multimodal mais eficientes e eficazes. O código está disponível em \url{https://github.com/PKU-YuanGroup/MoE-LLaVA}.

For Large Vision-Language Models (LVLMs), scaling the model can effectively improve performance. However, expanding model parameters significantly increases the training and inferring costs, as all model parameters are activated for each token in the calculation. In this work, we propose a novel training strategy MoE-tuning for LVLMs, which can constructing a sparse model with an outrageous number of parameter but a constant computational cost, and effectively addresses the performance degradation typically associated with multi-modal learning and model sparsity. Furthermore, we present the MoE-LLaVA framework, a MoE-based sparse LVLM architecture. This framework uniquely activates only the top-k experts through routers during deployment, keeping the remaining experts inactive. Our extensive experiments highlight the excellent capabilities of MoE-LLaVA in visual understanding and its potential to reduce hallucinations in model outputs. Remarkably, with just 3 billion sparsely activated parameters, MoE-LLaVA demonstrates performance comparable to the LLaVA-1.5-7B on various visual understanding datasets and even surpasses the LLaVA-1.5-13B in object hallucination benchmarks. Through MoE-LLaVA, we aim to establish a baseline for sparse LVLMs and provide valuable insights for future research in developing more efficient and effective multi-modal learning systems. Code is released at \url{https://github.com/PKU-YuanGroup/MoE-LLaVA}.

Link do artigo

https://arxiv.org/abs/2401.15947

Reescrevendo a web: uma receita para modelagem de linguagem eficiente em computação e dados / Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling

Apresentação do artigo

Usa um modelo de ajuste por instruções pronto para uso, estimulado a parafrasear documentos da web em estilos e formatos específicos, como “como a Wikipédia” ou “formato de perguntas e respostas”, para pré-treinar conjuntamente LLMs com reformulações reais e sintéticas; isso acelera o pré-treinamento em cerca de 3x, melhora a perplexidade e aumenta a precisão de respostas a perguntas em zero-shot em muitas tarefas.

Uses an off-the-shelf instruction-tuned model prompted to paraphrase web documents in specific styles and formats such as “like wikipedia” or “question-answer format” to jointly pre-train llms on real and synthetic rephrases; it speeds up pre-training by ~3x, improves perplexity, and improves zero-shot question answering accuracy on many tasks.

Resumo do artigo (Abstract)

Grandes modelos de linguagem geralmente são treinados com enormes raspagens da web, que costumam ser desestruturadas, ruidosas e mal formuladas. As leis de escala atuais mostram que aprender com esses dados exige abundância tanto de computação quanto de dados, e isso cresce com o tamanho do modelo em treinamento. Isso é inviável tanto por causa dos altos custos e da longa duração associados ao pré-treinamento quanto pela iminente escassez de dados de alta qualidade na web. Neste trabalho, é proposto o Web Rephrase Augmented Pre-training ($\textbf{WRAP}$), que usa um modelo instruction-tuned pronto para uso, induzido a parafrasear documentos da web em estilos específicos, como "como a Wikipédia" ou em "formato de perguntas e respostas", para pré-treinar conjuntamente LLMs com reformulações reais e sintéticas. Primeiro, mostra-se que usar WRAP no conjunto de dados C4, que é naturalmente ruidoso, acelera o pré-treinamento em $\sim3x$. Com o mesmo orçamento computacional de pré-treinamento, ele melhora a perplexidade em mais de 10% em média em diferentes subconjuntos do Pile e melhora a acurácia de respostas em zero-shot em 13 tarefas em mais de 2%. Em segundo lugar, investiga-se o impacto do estilo de reformulação no desempenho do modelo, oferecendo insights sobre como a composição dos dados de treinamento pode afetar o desempenho de LLMs em cenários OOD. Os ganhos observados são atribuídos ao fato de que os dados sintéticos reformulados têm utilidade maior do que apenas dados reais porque (i) incorporam diversidade de estilo que reflete de perto o estilo de avaliação downstream e (ii) têm "qualidade" maior do que dados raspados da web.

Large language models are trained on massive scrapes of the web, which are often unstructured, noisy, and poorly phrased. Current scaling laws show that learning from such data requires an abundance of both compute and data, which grows with the size of the model being trained. This is infeasible both because of the large compute costs and duration associated with pre-training, and the impending scarcity of high-quality data on the web. In this work, we propose Web Rephrase Augmented Pre-training ($\textbf{WRAP}$) that uses an off-the-shelf instruction-tuned model prompted to paraphrase documents on the web in specific styles such as "like Wikipedia" or in "question-answer format" to jointly pre-train LLMs on real and synthetic rephrases. First, we show that using WRAP on the C4 dataset, which is naturally noisy, speeds up pre-training by $\sim3x$. At the same pre-training compute budget, it improves perplexity by more than 10% on average across different subsets of the Pile, and improves zero-shot question answer accuracy across 13 tasks by more than 2%. Second, we investigate the impact of the re-phrasing style on the performance of the model, offering insights into how the composition of the training data can impact the performance of LLMs in OOD settings. Our gains are attributed to the fact that re-phrased synthetic data has higher utility than just real data because it (i) incorporates style diversity that closely reflects downstream evaluation style, and (ii) has higher 'quality' than web-scraped data.

Link do artigo

https://arxiv.org/abs/2401.16380

O poder do ruído: redefinindo a recuperação para sistemas RAG / The Power of Noise: Redefining Retrieval for RAG Systems

Introdução ao artigo

Um estudo focado nos componentes necessários para melhorar o componente de recuperação de um sistema RAG; confirma que a posição da informação relevante deve ser colocada perto da consulta, pois o modelo terá dificuldade para prestar atenção à informação se esse não for o caso; surpreendentemente, constata que documentos relacionados não necessariamente levam a um melhor desempenho do sistema RAG; e, de forma ainda mais inesperada, documentos irrelevantes e ruidosos podem ajudar a elevar a precisão se forem posicionados corretamente.

a study that focuses on the components needed to improve the retrieval component of a rag system; confirms that the position of relevant information should be placed near the query, the model will struggle to attend to the information if this is not the case; surprisingly, it finds that related documents don't necessarily lead to improved performance for the rag system; even more unexpectedly, irrelevant and noisy documents can help drive up accuracy if placed correctly.

Resumo(Abstract)

Os sistemas de Retrieval-Augmented Generation (RAG) representam um avanço significativo em relação aos tradicionais Large Language Models (LLMs). Os sistemas RAG aprimoram sua capacidade de geração ao incorporar dados externos recuperados por meio de uma etapa de Information Retrieval (IR), superando as limitações dos LLMs padrão, que ficam restritos ao conhecimento pré-treinado e a uma janela de contexto limitada. A maior parte das pesquisas nessa área tem se concentrado predominantemente no aspecto generativo dos LLMs dentro de sistemas RAG. Este estudo preenche essa lacuna ao analisar de forma aprofundada e crítica a influência dos componentes de IR nos sistemas RAG. O artigo analisa quais características um retriever deve ter para uma formulação eficaz de prompts em RAG, com foco no tipo de documentos que devem ser recuperados. São avaliados vários elementos, como a relevância dos documentos para o prompt, sua posição e a quantidade incluída no contexto. Os resultados revelam, entre outros insights, que incluir documentos irrelevantes pode inesperadamente melhorar o desempenho em mais de 30% em acurácia, contrariando a hipótese inicial de perda de qualidade. Esses resultados ressaltam a necessidade de desenvolver estratégias especializadas para integrar recuperação de informação com modelos de geração de linguagem, estabelecendo assim uma base para pesquisas futuras nesse campo.

Retrieval-Augmented Generation (RAG) systems represent a significant advancement over traditional Large Language Models (LLMs). RAG systems enhance their generation ability by incorporating external data retrieved through an Information Retrieval (IR) phase, overcoming the limitations of standard LLMs, which are restricted to their pre-trained knowledge and limited context window. Most research in this area has predominantly concentrated on the generative aspect of LLMs within RAG systems. Our study fills this gap by thoroughly and critically analyzing the influence of IR components on RAG systems. This paper analyzes which characteristics a retriever should possess for an effective RAG's prompt formulation, focusing on the type of documents that should be retrieved. We evaluate various elements, such as the relevance of the documents to the prompt, their position, and the number included in the context. Our findings reveal, among other insights, that including irrelevant documents can unexpectedly enhance performance by more than 30% in accuracy, contradicting our initial assumption of diminished quality. These results underscore the need for developing specialized strategies to integrate retrieval with language generation models, thereby laying the groundwork for future research in this field.

Link do artigo

https://arxiv.org/abs/2401.14887

Artigo de survey sobre alucinação em grandes modelos visão-linguagem / A Survey on Hallucination in Large Vision-Language Models

Introdução ao artigo

Discute os problemas de alucinação e as técnicas para mitigar alucinações em Large Vision-Language Models (LVLM); apresenta métodos de avaliação e benchmarks de alucinação em LVLM; fornece dicas e uma boa análise das causas das alucinações em LVLM e de possíveis formas de mitigá-las.

Discusses hallucination issues and techniques to mitigate hallucination in large vision-language models (lvlm); it introduces lvlm hallucination evaluation methods and benchmarks; provides tips and a good analysis of the causes of lvlm hallucinations and potential ways to mitigate them.

Resumo do artigo (Abstract)

O recente desenvolvimento de Large Vision-Language Models (LVLMs) tem atraído atenção crescente no cenário de IA por seu potencial de implementação prática. No entanto, a "alucinação", ou mais especificamente o desalinhamento entre conteúdo visual factual e a correspondente geração textual, representa um desafio significativo para o uso de LVLMs. Nesta survey abrangente, analisamos as alucinações relacionadas a LVLMs na tentativa de estabelecer uma visão geral e facilitar futuras estratégias de mitigação. Nossa análise começa com uma clarificação do conceito de alucinações em LVLMs, apresentando uma variedade de sintomas de alucinação e destacando os desafios únicos inerentes às alucinações em LVLMs. Em seguida, delineamos os benchmarks e as metodologias especificamente adaptados para avaliar alucinações próprias de LVLMs. Além disso, investigamos as causas-raiz dessas alucinações, abrangendo insights derivados dos dados de treinamento e dos componentes do modelo. Também revisamos de forma crítica os métodos existentes para mitigar alucinações. Para concluir esta survey, discutimos as questões em aberto e os direcionamentos futuros relacionados às alucinações em LVLMs.

Recent development of Large Vision-Language Models (LVLMs) has attracted growing attention within the AI landscape for its practical implementation potential. However, ``hallucination'', or more specifically, the misalignment between factual visual content and corresponding textual generation, poses a significant challenge of utilizing LVLMs. In this comprehensive survey, we dissect LVLM-related hallucinations in an attempt to establish an overview and facilitate future mitigation. Our scrutiny starts with a clarification of the concept of hallucinations in LVLMs, presenting a variety of hallucination symptoms and highlighting the unique challenges inherent in LVLM hallucinations. Subsequently, we outline the benchmarks and methodologies tailored specifically for evaluating hallucinations unique to LVLMs. Additionally, we delve into an investigation of the root causes of these hallucinations, encompassing insights from the training data and model components. We also critically review existing methods for mitigating hallucinations. The open questions and future directions pertaining to hallucinations within LVLMs are discussed to conclude this survey.

Link do artigo

https://arxiv.org/abs/2402.00253

SliceGPT: Comprimir grandes modelos de linguagem removendo linhas e colunas / SliceGPT: Compress Large Language Models by Deleting Rows and Columns

Introdução ao artigo

Uma nova técnica de compressão de LLM que propõe um esquema de esparsificação pós-treinamento que substitui cada matriz de pesos por uma matriz densa menor; ajuda a reduzir a dimensão de embedding da rede e pode remover até 20% dos parâmetros do modelo nos modelos Llama2-70B e Phi-2, mantendo a maior parte do desempenho zero-shot dos modelos densos.

A new llm compression technique that proposes a post-training sparsification scheme that replaces each weight matrix with a smaller dense matrix; helps reduce the embedding dimension of the network and can remove up to 20% of model parameters for llama2-70b and phi-2 models while retaining most of the zero-shot performance of the dense models.

Resumo do artigo (Abstract)

Os grandes modelos de linguagem se tornaram a pedra fundamental do processamento de linguagem natural, mas seu uso traz custos substanciais em termos de recursos de computação e memória. A esparsificação oferece uma solução para aliviar essas restrições de recursos, e trabalhos recentes mostraram que modelos treinados podem ser esparsificados posteriormente. As técnicas de esparsificação existentes enfrentam desafios, pois exigem estruturas de dados adicionais e oferecem ganhos de velocidade limitados no hardware atual. Neste artigo, apresentamos o SliceGPT, um novo esquema de esparsificação pós-treinamento que substitui cada matriz de pesos por uma matriz (densa) menor, reduzindo a dimensão de embedding da rede. Por meio de experimentos extensivos, mostramos que o SliceGPT pode remover até 25% dos parâmetros do modelo (incluindo embeddings) nos modelos LLAMA2-70B, OPT 66B e Phi-2, mantendo respectivamente 99%, 99% e 90% do desempenho em tarefas zero-shot do modelo denso. Nossos modelos fatiados executam em menos GPUs e rodam mais rápido sem qualquer otimização adicional de código: em GPUs de consumo com 24 GB, reduzimos a computação total para inferência no LLAMA2-70B para 64% da do modelo denso; em GPUs A100 de 40 GB, reduzimos para 66%. Oferecemos um novo insight, a invariância computacional em redes transformer, que viabiliza o SliceGPT, e esperamos que isso inspire e permita futuros caminhos para reduzir as demandas de memória e computação de modelos pré-treinados. O código está disponível em: https://github.com/microsoft/TransformerCompression

Large language models have become the cornerstone of natural language processing, but their use comes with substantial costs in terms of compute and memory resources. Sparsification provides a solution to alleviate these resource constraints, and recent works have shown that trained models can be sparsified post-hoc. Existing sparsification techniques face challenges as they need additional data structures and offer constrained speedup with current hardware. In this paper we present SliceGPT, a new post-training sparsification scheme which replaces each weight matrix with a smaller (dense) matrix, reducing the embedding dimension of the network. Through extensive experimentation, we show that SliceGPT can remove up to 25% of the model parameters (including embeddings) for LLAMA2-70B, OPT 66B and Phi-2 models while maintaining 99%, 99% and 90% zero-shot task performance of the dense model respectively. Our sliced models run on fewer GPUs and run faster without any additional code optimization: on 24GB consumer GPUs we reduce the total compute for inference on LLAMA2-70B to 64% of that of the dense model; on 40GB A100 GPUs we reduce it to 66%. We offer a new insight, computational invariance in transformer networks, which enables SliceGPT and we hope it will inspire and enable future avenues to reduce memory and computation demands for pre-trained models. Code is available at: https://github.com/microsoft/TransformerCompression

Link do artigo

https://arxiv.org/abs/2401.15024v1

Texto original

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-c5e

⚠️Publicidade⚠️: Este texto, organizado pelo PyTorch Korean User Group, foi útil para você? Se você se cadastrar como membro, enviaremos os principais textos por e-mail! (O padrão é Weekly, mas também é possível mudar para Daily.)

[2024/01/29 ~ 02/04] Os principais artigos de ML desta semana (Top ML Papers of the Week)

Visão geral

OLMo: acelerando a ciência dos modelos de linguagem / OLMo: Accelerating the Science of Language Models

Apresentação do artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

MM-LLM: avanços recentes em grandes modelos de linguagem multimodais / MM-LLMs: Recent Advances in MultiModal Large Language Models

Apresentação do artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

CRAG: geração aumentada por recuperação corretiva / Corrective Retrieval Augmented Generation

Introdução do artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

Grandes modelos de linguagem para raciocínio matemático: avanços e desafios / Large Language Models for Mathematical Reasoning: Progresses and Challenges

Apresentação do artigo

Resumo (Abstract)

Link do artigo

Leia mais

Pesquisa abrangente sobre algoritmos de compressão para modelos de linguagem / A Comprehensive Survey of Compression Algorithms for Language Models

Introdução do artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

MoE-LLaVA: mistura de especialistas para grandes modelos vision-language / MoE-LLaVA: Mixture of Experts for Large Vision-Language Models

Introdução do artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

Reescrevendo a web: uma receita para modelagem de linguagem eficiente em computação e dados / Rephrasing the Web: A Recipe for Compute and Data-Efficient Language Modeling

Apresentação do artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

O poder do ruído: redefinindo a recuperação para sistemas RAG / The Power of Noise: Redefining Retrieval for RAG Systems

Introdução ao artigo

Resumo(Abstract)

Link do artigo

Leia mais

Artigo de survey sobre alucinação em grandes modelos visão-linguagem / A Survey on Hallucination in Large Vision-Language Models

Introdução ao artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

SliceGPT: Comprimir grandes modelos de linguagem removendo linhas e colunas / SliceGPT: Compress Large Language Models by Deleting Rows and Columns

Introdução ao artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

Texto original

Leituras relacionadas

Ainda não há comentários.