12] Principais artigos de ML da semana (Top ML Papers of the Week)

(discuss.pytorch.kr)

3 pontos por ninebow 2023-11-13 | Ainda não há comentários. | Compartilhar no WhatsApp

Visão geral

Fizemos uma tradução automática dos artigos sobre papers de ML publicados semanalmente pela DAIR.AI.
Ao observar os artigos selecionados desta semana, nota-se que há vários estudos sobre modelos Transformer e grandes modelos de linguagem (Large Language Models, LLMs).
Títulos como 'Simplifying Transformer Blocks', 'Understanding In-Context Learning Abilities in Transformers' e 'S-LoRA' parecem focar em aprofundar a compreensão da estrutura e dos mecanismos de aprendizado dos modelos Transformer.
'Hallucination in LLMs', 'On the Road with GPT-4V(ision)' e 'GPT4All' tratam do desempenho e de casos de aplicação de grandes modelos de linguagem como o GPT, mostrando uma forte tendência de foco no avanço e nas aplicações desses modelos.

Pesquisa sobre alucinação em grandes modelos de linguagem: princípios, taxonomia, desafios e questões em aberto / A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions

Apresentação do artigo

Um artigo de survey abrangente sobre alucinação em LLMs (mais de 50 páginas), que fornece informações sobre princípios, taxonomia, desafios e questões em aberto relacionadas ao problema de alucinação em LLMs. #survey-paper #hallucination

A comprehensive survey (50+ pages) on hallucination in llms; provides information about principles, taxonomy, challenges, and open questions related to the issue of hallucination in llms.

Resumo do artigo

O surgimento dos grandes modelos de linguagem (LLMs) marcou um avanço significativo no processamento de linguagem natural (NLP), levando a progressos notáveis em compreensão e geração de texto. No entanto, junto com esses avanços, os LLMs apresentam uma forte tendência a produzir alucinações, gerando conteúdo inconsistente com fatos do mundo real ou com as entradas do usuário. Esse fenômeno impõe desafios substanciais à sua aplicação prática e levanta preocupações sobre a confiabilidade dos LLMs em cenários reais, o que vem atraindo atenção crescente para detectar e mitigar essas alucinações. Nesta survey, buscamos oferecer uma visão geral aprofundada e abrangente dos avanços recentes na área de alucinações em LLMs. Começamos com uma taxonomia inovadora das alucinações em LLMs e, em seguida, analisamos os fatores que contribuem para esse fenômeno. Depois, apresentamos uma visão geral abrangente dos métodos de detecção de alucinações e dos benchmarks. Além disso, são introduzidas abordagens representativas desenvolvidas para mitigar alucinações. Por fim, analisamos os desafios que evidenciam as limitações atuais e formulamos questões em aberto, com o objetivo de delinear caminhos para futuras pesquisas sobre alucinações em LLMs.

The emergence of large language models (LLMs) has marked a significant breakthrough in natural language processing (NLP), leading to remarkable advancements in text understanding and generation. Nevertheless, alongside these strides, LLMs exhibit a critical tendency to produce hallucinations, resulting in content that is inconsistent with real-world facts or user inputs. This phenomenon poses substantial challenges to their practical deployment and raises concerns over the reliability of LLMs in real-world scenarios, which attracts increasing attention to detect and mitigate these hallucinations. In this survey, we aim to provide a thorough and in-depth overview of recent advances in the field of LLM hallucinations. We begin with an innovative taxonomy of LLM hallucinations, then delve into the factors contributing to hallucinations. Subsequently, we present a comprehensive overview of hallucination detection methods and benchmarks. Additionally, representative approaches designed to mitigate hallucinations are introduced accordingly. Finally, we analyze the challenges that highlight the current limitations and formulate open questions, aiming to delineate pathways for future research on hallucinations in LLMs.

Link do artigo

https://arxiv.org/abs/2311.05232

Simplificando blocos Transformer / Simplifying Transformer Blocks

Apresentação do artigo

Ao simplificar os blocos Transformer, os autores descobriram que muitos componentes do bloco podem ser removidos sem perda de velocidade de treinamento; usando diferentes arquiteturas, como modelos autorregressivos do tipo decoder-only e modelos encoder-only do BERT, os blocos simplificados emulam a velocidade e o desempenho de treinamento por atualização dos Transformers padrão e podem até alcançar 15% mais throughput de treinamento com menos parâmetros (15%).

Explores simplifying the transformer block and finds that many block components can be removed with no loss of training speed; using different architectures like autoregressive decoder-only and bert encoder-only models, the simplified blocks emulate per-update training speed and performance of standard transformers, and even achieve 15% faster training throughput with fewer parameters (15%).

Resumo do artigo

Uma receita de design simples para Transformers profundos é compor blocos de construção idênticos. Mas os blocos padrão de Transformer estão longe de ser simples, entrelaçando sub-blocos de atenção e MLP com conexões de atalho e camadas de normalização em arranjos precisos. Essa complexidade leva a arquiteturas frágeis, nas quais mudanças aparentemente pequenas podem reduzir significativamente a velocidade de treinamento ou tornar os modelos impossíveis de treinar. Neste trabalho, perguntamos até que ponto o bloco padrão de Transformer pode ser simplificado. Combinando teoria de propagação de sinal e observações empíricas, motivamos modificações que permitem remover muitos componentes do bloco sem perda de velocidade de treinamento, incluindo conexões de atalho, parâmetros de projeção ou de valor, sub-blocos sequenciais e camadas de normalização. Em experimentos tanto com modelos autorregressivos apenas com decoder quanto com modelos BERT apenas com encoder, nossos Transformers simplificados reproduzem a velocidade de treinamento por atualização e o desempenho dos Transformers padrão, ao mesmo tempo em que oferecem 15% mais throughput de treinamento e usam 15% menos parâmetros.

A simple design recipe for deep Transformers is to compose identical building blocks. But standard transformer blocks are far from simple, interweaving attention and MLP sub-blocks with skip connections & normalisation layers in precise arrangements. This complexity leads to brittle architectures, where seemingly minor changes can significantly reduce training speed, or render models untrainable. In this work, we ask to what extent the standard transformer block can be simplified? Combining signal propagation theory and empirical observations, we motivate modifications that allow many block components to be removed with no loss of training speed, including skip connections, projection or value parameters, sequential sub-blocks and normalisation layers. In experiments on both autoregressive decoder-only and BERT encoder-only models, our simplified transformers emulate the per-update training speed and performance of standard transformers, while enjoying 15% faster training throughput, and using 15% fewer parameters.

Link do artigo

https://arxiv.org/abs/2311.01906

Misturas de dados de pré-treinamento permitem capacidades mais restritas de seleção de modelos em modelos Transformer / Pretraining Data Mixtures Enable Narrow Model Selection Capabilities in Transformer Models

Apresentação do artigo

Investiga com que eficácia os Transformers conseguem fazer a ponte entre misturas de dados de pré-treinamento para identificar e aprender, em contexto, novas tarefas tanto dentro quanto fora da distribuição de pré-treinamento; nos regimes estudados, há evidências limitadas de que o comportamento de aprendizagem em contexto dos modelos seja capaz de generalizar além dos dados de pré-treinamento.

Investigates how effectively transformers can bridge between pretraining data mixture to identify and learn new tasks in-context which are both inside and outside the pretraining distribution; in the regimes studied, there is limited evidence that the models’ in-context learning behavior is capable of generalizing beyond their pretraining data.

Resumo do artigo

Modelos Transformer, especialmente os grandes modelos de linguagem (LLMs), têm a notável capacidade de realizar aprendizado em contexto (ICL) — executar novas tarefas quando recebem exemplos inéditos de entrada e saída no prompt, sem qualquer treinamento explícito do modelo. Neste trabalho, estudamos com que eficácia os Transformers conseguem fazer a ponte entre sua mistura de dados de pré-treinamento, composta por múltiplas famílias de tarefas distintas, para identificar e aprender em contexto novas tarefas que estão tanto dentro quanto fora da distribuição de pré-treinamento. Com base em trabalhos anteriores, investigamos essa questão em um ambiente controlado, no qual estudamos modelos Transformer treinados em sequências de pares $(x, f(x))$ em vez de linguagem natural. Nossos resultados empíricos mostram que os Transformers demonstram capacidades quase ótimas de seleção de modelo não supervisionada, em sua habilidade de primeiro identificar em contexto diferentes famílias de tarefas e aprender em contexto dentro delas quando essas famílias de tarefas estão bem representadas em seus dados de pré-treinamento. No entanto, quando são apresentados a tarefas ou funções fora do domínio de seus dados de pré-treinamento, mostramos vários modos de falha dos Transformers e degradação de sua generalização mesmo em tarefas simples de extrapolação. Em conjunto, nossos resultados destacam que as impressionantes capacidades de ICL de modelos sequenciais de alta capacidade podem estar mais estreitamente ligadas à cobertura de suas misturas de dados de pré-treinamento do que a vieses indutivos que criam capacidades fundamentais de generalização.

Transformer models, notably large language models (LLMs), have the remarkable ability to perform in-context learning (ICL) -- to perform new tasks when prompted with unseen input-output examples without any explicit model training. In this work, we study how effectively transformers can bridge between their pretraining data mixture, comprised of multiple distinct task families, to identify and learn new tasks in-context which are both inside and outside the pretraining distribution. Building on previous work, we investigate this question in a controlled setting, where we study transformer models trained on sequences of $(x, f(x))$ pairs rather than natural language. Our empirical results show transformers demonstrate near-optimal unsupervised model selection capabilities, in their ability to first in-context identify different task families and in-context learn within them when the task families are well-represented in their pretraining data. However when presented with tasks or functions which are out-of-domain of their pretraining data, we demonstrate various failure modes of transformers and degradation of their generalization for even simple extrapolation tasks. Together our results highlight that the impressive ICL abilities of high-capacity sequence models may be more closely tied to the coverage of their pretraining data mixtures than inductive biases that create fundamental generalization capabilities.

Link do artigo

https://arxiv.org/abs/2311.00871

Geração de música simples e controlável / Simple and Controllable Music Generation

Introdução do artigo

Um LLM baseado em transformer de estágio único que opera sobre vários fluxos de representações musicais discretas comprimidas, capaz de gerar amostras de alta qualidade (mono e estéreo) enquanto é condicionado por descrições em texto ou características melódicas.

A single-stage transformer-based llm that operates over several streams of compressed discrete music representation; it can generate high-quality samples (mono and stereo) while conditioning on textual description or melodic features.

Resumo do artigo

Aborda a tarefa de geração condicional de música. Apresenta o MusicGen, um único modelo de linguagem (LM) que opera sobre vários fluxos de representação musical discreta comprimida, isto é, tokens. Diferentemente de trabalhos anteriores, o MusicGen é composto por um LM transformer de estágio único junto com padrões eficientes de intercalação de tokens, o que elimina a necessidade de encadear vários modelos, por exemplo, de forma hierárquica ou com upsampling. Seguindo essa abordagem, os autores demonstram como o MusicGen pode gerar amostras de alta qualidade, tanto mono quanto estéreo, enquanto é condicionado por descrições textuais ou características melódicas, permitindo melhor controle sobre a saída gerada. Foi realizada uma extensa avaliação empírica, considerando tanto estudos automáticos quanto humanos, mostrando que a abordagem proposta é superior às linhas de base avaliadas em um benchmark padrão de texto para música. Por meio de estudos de ablação, os autores esclarecem a importância de cada um dos componentes que compõem o MusicGen. Amostras de música, código e modelos estão disponíveis em https://github.com/facebookresearch/audiocraft

We tackle the task of conditional music generation. We introduce MusicGen, a single Language Model (LM) that operates over several streams of compressed discrete music representation, i.e., tokens. Unlike prior work, MusicGen is comprised of a single-stage transformer LM together with efficient token interleaving patterns, which eliminates the need for cascading several models, e.g., hierarchically or upsampling. Following this approach, we demonstrate how MusicGen can generate high-quality samples, both mono and stereo, while being conditioned on textual description or melodic features, allowing better controls over the generated output. We conduct extensive empirical evaluation, considering both automatic and human studies, showing the proposed approach is superior to the evaluated baselines on a standard text-to-music benchmark. Through ablation studies, we shed light over the importance of each of the components comprising MusicGen. Music samples, code, and models are available at https://github.com/facebookresearch/audiocraft

Link do artigo

https://arxiv.org/abs/2306.05284

Atualizações alternadas para modelos Transformer eficientes / Alternating Updates for Efficient Transformers

Introdução do artigo

Um método que torna possível aproveitar o aumento de escala e capacidade em modelos transformer sem elevar o custo computacional; isso é obtido ao trabalhar, em cada camada, em um subbloco da representação ampliada e usar um mecanismo de previsão e correção para atualizar os blocos inativados, ampliando a representação aprendida enquanto incorre apenas em um aumento desprezível de latência.

A method that makes it possible to take advantage of increasing scale and capacity in transformer models without increasing the computational cost; achieved by working on a subblock of the widened representation at each layer and using a predict-and-correct mechanism to update the inactivated blocks; it widens the learn representation while only incurring a negligible increase in latency.

Resumo do artigo

Já é bem conhecido que aumentar a escala de redes transformer profundas melhora a qualidade e o desempenho. No entanto, esse aumento de escala frequentemente vem acompanhado de aumentos proibitivos no custo computacional e na latência de inferência. A Pure Storage apresenta o Alternating Updates (AltUp), um método simples de implementar para aumentar a capacidade de um modelo sem o ônus computacional. O AltUp permite ampliar a representação aprendida, isto é, o embedding de tokens, incorrendo apenas em um aumento desprezível de latência. O AltUp faz isso operando sobre um subbloco da representação ampliada em cada camada e usando um mecanismo de previsão e correção para atualizar os blocos inativados. Apresentamos extensões do AltUp, como sua aplicabilidade à dimensão de sequência, e demonstramos como o AltUp pode ser combinado de forma sinérgica com abordagens existentes, como modelos Sparse Mixture-of-Experts, para obter modelos eficientes com capacidade ainda maior. Nossos experimentos com modelos transformer de benchmark e tarefas de linguagem demonstram a eficácia consistente do AltUp em um conjunto diverso de cenários. Em especial, nos benchmarks SuperGLUE e SQuAD, o AltUp permite até $87%$ de aceleração em relação às linhas de base densas com a mesma acurácia.

It has been well established that increasing scale in deep transformer networks leads to improved quality and performance. However, this increase in scale often comes with prohibitive increases in compute cost and inference latency. We introduce Alternating Updates (AltUp), a simple-to-implement method to increase a model's capacity without the computational burden. AltUp enables the widening of the learned representation, i.e., the token embedding, while only incurring a negligible increase in latency. AltUp achieves this by working on a subblock of the widened representation at each layer and using a predict-and-correct mechanism to update the inactivated blocks. We present extensions of AltUp, such as its applicability to the sequence dimension, and demonstrate how AltUp can be synergistically combined with existing approaches, such as Sparse Mixture-of-Experts models, to obtain efficient models with even higher capacity. Our experiments on benchmark transformer models and language tasks demonstrate the consistent effectiveness of AltUp on a diverse set of scenarios. Notably, on SuperGLUE and SQuAD benchmarks, AltUp enables up to $87%$ speedup relative to the dense baselines at the same accuracy.

Link do artigo

https://arxiv.org/abs/2301.13310

Reformule e responda: faça grandes modelos de linguagem fazerem perguntas melhores para si mesmos / Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves

Apresentação do artigo

Um método eficaz de prompting que usa LLMs para reformular e expandir perguntas feitas por humanos a fim de melhorar o desempenho geral; ele pode melhorar o desempenho de diferentes modelos em uma ampla gama de tarefas; a abordagem pode ser combinada com chain-of-thought para melhorar ainda mais o desempenho.

An effective prompting method that uses llms to rephrase and expand questions posed by humans to improve overall performance; it can improve the performance of different models across a wide range of tasks; the approach can be combined with chain-of-thought to improve performance further.

Resumo do artigo

Mal-entendidos surgem não apenas na comunicação interpessoal, mas também entre humanos e grandes modelos de linguagem (LLMs). Essas discrepâncias podem fazer com que os LLMs interpretem perguntas aparentemente não ambíguas de maneiras inesperadas, produzindo respostas incorretas. Embora seja amplamente reconhecido que a qualidade de um prompt, como uma pergunta, afeta significativamente a qualidade da resposta fornecida pelos LLMs, ainda são pouco desenvolvidos métodos sistemáticos para formular perguntas que os LLMs consigam compreender melhor. Neste artigo, os autores apresentam um método chamado Rephrase and Respond (RaR), que permite aos LLMs reformular e expandir perguntas feitas por humanos e fornecer respostas em um único prompt. Essa abordagem funciona como um método de prompting simples, mas eficaz, para melhorar o desempenho. Além disso, é introduzida uma variante de duas etapas do RaR, na qual um LLM de reformulação primeiro reformula a pergunta e depois envia a pergunta original e a reformulada juntas para outro LLM responsável pela resposta. Isso permite aproveitar de forma eficaz, em um LLM, a reformulação gerada por outro. Os resultados experimentais mostram que esse método melhora significativamente o desempenho de vários modelos em uma ampla variedade de tarefas. O artigo também compara de forma abrangente, tanto teórica quanto empiricamente, o RaR com o popular método Chain-of-Thought (CoT). Com isso, mostra que o RaR é complementar ao CoT e pode ser combinado com ele para alcançar resultados ainda melhores. O trabalho não apenas contribui para melhorar o desempenho dos LLMs de forma eficiente e eficaz, como também lança luz sobre uma avaliação justa das capacidades desses modelos. Os dados e o código estão disponíveis em https://github.com/uclaml/Rephrase-and-Respond.

Mal-entendidos surgem não apenas na comunicação interpessoal, mas também entre humanos e Large Language Models (LLMs). Essas discrepâncias podem fazer com que os LLMs interpretem perguntas aparentemente não ambíguas de maneiras inesperadas, produzindo respostas incorretas. Embora seja amplamente reconhecido que a qualidade de um prompt, como uma pergunta, afeta significativamente a qualidade da resposta fornecida pelos LLMs, ainda são pouco desenvolvidos métodos sistemáticos para formular perguntas que os LLMs consigam compreender melhor. Neste artigo, apresentamos um método chamado Rephrase and Respond (RaR), que permite aos LLMs reformular e expandir perguntas feitas por humanos e fornecer respostas em um único prompt. Essa abordagem funciona como um método de prompting simples, mas eficaz, para melhorar o desempenho. Também introduzimos uma variante de duas etapas do RaR, na qual um LLM de reformulação primeiro reformula a pergunta e então envia a pergunta original e a reformulada juntas para um LLM diferente responsável pela resposta. Isso facilita o uso eficaz, por um LLM, de perguntas reformuladas geradas por outro. Nossos experimentos demonstram que nossos métodos melhoram significativamente o desempenho de diferentes modelos em uma ampla variedade de tarefas. Também fornecemos uma comparação abrangente entre o RaR e os populares métodos Chain-of-Thought (CoT), tanto do ponto de vista teórico quanto empírico. Mostramos que o RaR é complementar ao CoT e pode ser combinado com o CoT para alcançar um desempenho ainda melhor. Nosso trabalho não apenas contribui para aprimorar o desempenho dos LLMs de forma eficiente e eficaz, mas também lança luz sobre uma avaliação justa das capacidades dos LLMs. Os dados e códigos estão disponíveis em https://github.com/uclaml/Rephrase-and-Respond.

Link do artigo

https://arxiv.org/abs/2311.04205

Rodando pelas estradas com o GPT-4V(ision): explorações iniciais de modelos visuais-linguísticos em direção autônoma / On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving

Introdução do artigo

Avalia de forma exaustiva o mais recente modelo visual-linguístico de ponta, GPT-4V(ision), e sua aplicação à direção autônoma; o modelo demonstra desempenho superior em compreensão de cenas e raciocínio causal em comparação com sistemas autônomos existentes.

Provides an exhaustive evaluation of the latest state-of-the-art visual language model, gpt-4v(ision), and its application in autonomous driving; the model demonstrates superior performance in scene understanding and causal reasoning compared to existing autonomous systems.

Resumo do artigo

A concretização da tecnologia de direção autônoma depende da integração sofisticada de sistemas de percepção, tomada de decisão e controle. As abordagens tradicionais, tanto baseadas em dados quanto em regras, tinham como limitação a incapacidade de captar as nuances de ambientes de direção complexos e as intenções de outros usuários da via. Isso tem sido um grande gargalo, especialmente no desenvolvimento do raciocínio de senso comum e da compreensão refinada de cenas, necessários para uma direção autônoma segura e confiável. O surgimento dos modelos de visão-linguagem (VLMs) abriu uma nova fronteira na realização da direção totalmente autônoma. Este relatório fornece uma avaliação minuciosa dos mais recentes VLMs de ponta e de sua aplicação em cenários de direção autônoma. Ele examina a capacidade do modelo de compreender e raciocinar sobre cenas de condução, tomar decisões e, por fim, agir como um motorista. Foram realizados testes abrangentes, desde o reconhecimento básico de cenas até o raciocínio causal complexo e a tomada de decisão em tempo real sob diferentes condições. Os resultados mostram que o 'nome do modelo' apresentou desempenho superior em compreensão de cena e raciocínio causal em comparação com os sistemas de direção autônoma existentes. Isso demonstra potencial para lidar com cenários fora da distribuição em situações reais de condução, reconhecer intenções e tomar decisões bem fundamentadas. No entanto, ainda permanecem desafios em tarefas como identificação de direção, reconhecimento de semáforos, grounding visual e raciocínio espacial. Essas limitações destacam a necessidade de mais pesquisa e desenvolvimento. Atualmente, qualquer pessoa pode acessar e utilizar este projeto no GitHub: URL{https://github.com/PJLab-ADG/GPT4V-AD-Exploration}

The pursuit of autonomous driving technology hinges on the sophisticated integration of perception, decision-making, and control systems. Traditional approaches, both data-driven and rule-based, have been hindered by their inability to grasp the nuance of complex driving environments and the intentions of other road users. This has been a significant bottleneck, particularly in the development of common sense reasoning and nuanced scene understanding necessary for safe and reliable autonomous driving. The advent of Visual Language Models (VLM) represents a novel frontier in realizing fully autonomous vehicle driving. This report provides an exhaustive evaluation of the latest state-of-the-art VLM, \modelnamefull, and its application in autonomous driving scenarios. We explore the model's abilities to understand and reason about driving scenes, make decisions, and ultimately act in the capacity of a driver. Our comprehensive tests span from basic scene recognition to complex causal reasoning and real-time decision-making under varying conditions. Our findings reveal that \modelname demonstrates superior performance in scene understanding and causal reasoning compared to existing autonomous systems. It showcases the potential to handle out-of-distribution scenarios, recognize intentions, and make informed decisions in real driving contexts. However, challenges remain, particularly in direction discernment, traffic light recognition, vision grounding, and spatial reasoning tasks. These limitations underscore the need for further research and development. Project is now available on GitHub for interested parties to access and utilize: \url{https://github.com/PJLab-ADG/GPT4V-AD-Exploration}

Link do artigo

https://arxiv.org/abs/2311.05332

GPT4All: ecossistema open source de modelos de linguagem comprimidos / GPT4All: An Ecosystem of Open Source Compressed Language Models

Introdução ao artigo

Resume brevemente os detalhes técnicos da família de modelos GPT4All, junto com o repositório open source que busca democratizar o acesso a LLMs.

Outlines technical details of the gpt4all model family along with the open-source repository that aims to democratize access to llms.

Resumo do artigo

Recentemente, os grandes modelos de linguagem (LLMs) alcançaram desempenho em nível humano em uma variedade de benchmarks profissionais e acadêmicos. A acessibilidade desses modelos ficou para trás em relação ao seu desempenho. Os LLMs mais avançados exigem infraestrutura cara, só podem ser acessados por interfaces web com limitação de taxa, restrições geográficas e censura, e carecem de código e relatórios técnicos disponíveis publicamente. Neste artigo, contamos a história do GPT4All, um popular repositório open source que busca democratizar o acesso a LLMs. Também descrevemos brevemente os detalhes técnicos da família original de modelos GPT4All, bem como a evolução do projeto GPT4All de um único modelo para um ecossistema open source completo. Esperamos que este artigo sirva tanto como uma visão técnica dos modelos GPT4All originais quanto como um estudo de caso sobre o crescimento subsequente do ecossistema open source GPT4All.

Large language models (LLMs) have recently achieved human-level performance on a range of professional and academic benchmarks. The accessibility of these models has lagged behind their performance. State-of-the-art LLMs require costly infrastructure; are only accessible via rate-limited, geo-locked, and censored web interfaces; and lack publicly available code and technical reports. In this paper, we tell the story of GPT4All, a popular open source repository that aims to democratize access to LLMs. We outline the technical details of the original GPT4All model family, as well as the evolution of the GPT4All project from a single model into a fully fledged open source ecosystem. It is our hope that this paper acts as both a technical overview of the original GPT4All models as well as a case study on the subsequent growth of the GPT4All open source ecosystem.

Link do artigo

https://arxiv.org/abs/2311.04931

S-LoRA: oferecendo serviço para milhares de adaptadores LoRA simultâneos / S-LoRA: Serving Thousands of Concurrent LoRA Adapters

Apresentação do artigo

É uma abordagem que possibilita o serving escalável de muitos adaptadores LoRA: armazena todos os adaptadores na memória principal e traz para a memória da GPU os adaptadores das consultas em execução no momento, usando uma nova estratégia de paralelismo de tensores e kernels CUDA customizados altamente otimizados para o processamento em lote heterogêneo dos cálculos de LoRA, com throughput 4x maior em comparação com outras soluções e aumento de várias ordens de grandeza no número de adaptadores atendidos.

An approach that enables the scalable serving of many lora adapters; it stores all adapters in main memory and fetches adapters of currently running queries to the gpu memory; employs novel tensor parallelism strategy and highly optimized custom cuda kernels for heterogenous batching of lora computation; improves throughput by 4x, when compared to other solutions, and increases the number of served adapters by several orders of magnitude.

Resumo do artigo

Na implantação de grandes modelos de linguagem, o paradigma “pré-treinamento seguido de fine-tuning” é comumente adotado. A Low-Rank Adaptation (LoRA), um método de fine-tuning eficiente em parâmetros, é frequentemente empregada para adaptar um modelo base a uma grande variedade de tarefas, resultando em uma coleção substancial de adaptadores LoRA derivados de um único modelo base. Observamos que esse paradigma apresenta oportunidades significativas para inferência em lote durante o serving. Para aproveitar essas oportunidades, apresentamos o S-LoRA, um sistema projetado para o serving escalável de muitos adaptadores LoRA. O S-LoRA armazena todos os adaptadores na memória principal e transfere para a memória da GPU os adaptadores usados pelas consultas em execução no momento. Para usar a memória da GPU de forma eficiente e reduzir a fragmentação, o S-LoRA propõe o Unified Paging. O Unified Paging usa um pool de memória unificado para gerenciar pesos dinâmicos de adaptadores com diferentes ranks e tensores de cache KV com comprimentos de sequência variados. Além disso, o S-LoRA emprega uma nova estratégia de paralelismo de tensores e kernels CUDA customizados altamente otimizados para dar suporte ao processamento em lote heterogêneo dos cálculos de LoRA. Em conjunto, esses recursos permitem que o S-LoRA atenda milhares de adaptadores LoRA em uma única GPU ou em várias GPUs com baixo overhead. Em comparação com bibliotecas de ponta como HuggingFace PEFT e vLLM (com suporte ingênuo ao serving de LoRA), o S-LoRA pode melhorar o throughput em até 4 vezes e aumentar em várias ordens de grandeza o número de adaptadores atendidos. Como resultado, o S-LoRA viabiliza o serving escalável de muitos modelos ajustados para tarefas específicas e oferece potencial para serviços de fine-tuning customizado em larga escala. O código está disponível em https://github.com/S-LoRA/S-LoRA

The "pretrain-then-finetune" paradigm is commonly adopted in the deployment of large language models. Low-Rank Adaptation (LoRA), a parameter-efficient fine-tuning method, is often employed to adapt a base model to a multitude of tasks, resulting in a substantial collection of LoRA adapters derived from one base model. We observe that this paradigm presents significant opportunities for batched inference during serving. To capitalize on these opportunities, we present S-LoRA, a system designed for the scalable serving of many LoRA adapters. S-LoRA stores all adapters in the main memory and fetches the adapters used by the currently running queries to the GPU memory. To efficiently use the GPU memory and reduce fragmentation, S-LoRA proposes Unified Paging. Unified Paging uses a unified memory pool to manage dynamic adapter weights with different ranks and KV cache tensors with varying sequence lengths. Additionally, S-LoRA employs a novel tensor parallelism strategy and highly optimized custom CUDA kernels for heterogeneous batching of LoRA computation. Collectively, these features enable S-LoRA to serve thousands of LoRA adapters on a single GPU or across multiple GPUs with a small overhead. Compared to state-of-the-art libraries such as HuggingFace PEFT and vLLM (with naive support of LoRA serving), S-LoRA can improve the throughput by up to 4 times and increase the number of served adapters by several orders of magnitude. As a result, S-LoRA enables scalable serving of many task-specific fine-tuned models and offers the potential for large-scale customized fine-tuning services. The code is available at https://github.com/S-LoRA/S-LoRA

Link do artigo

https://arxiv.org/abs/2311.03285v2

FreshLLM: atualização de grandes modelos de linguagem com reforço de mecanismo de busca / FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation

Apresentação do artigo

Propõe o FreshQA, um benchmark dinâmico de QA para testar a factualidade do texto gerado por LLMs; propõe o FreshPrompt, um método simples de prompting few-shot que melhora substancialmente o desempenho de um LLM no FreshQA ao incorporar ao prompt informações relevantes e atualizadas recuperadas de um mecanismo de busca; e constata que instruir o LLM a gerar respostas concisas e diretas ajuda a reduzir alucinações em comparação com incentivar respostas mais verbosas.

Proposes a dynamic qa benchmark (freshqa) to test the factuality of llm-generated text; proposes freshprompt, a simple few-shot prompting method that substantially boosts the performance of an llm on freshqa by incorporating relevant and up-to-date information retrieved from a search engine into the prompt; finds that instructing the llm to generate concise and direct answers helps reduce hallucination compared to encouraging more verbose answers.

Resumo do artigo

A maioria dos grandes modelos de linguagem (LLMs) é treinada uma única vez e nunca é atualizada; por isso, carece da capacidade de se adaptar dinamicamente ao nosso mundo em constante mudança. Este estudo realiza uma análise detalhada da factualidade do texto gerado por LLMs no contexto de respostas a perguntas que testam o conhecimento atual sobre o mundo. Especificamente, apresenta o FreshQA, um novo benchmark dinâmico de QA que abrange uma ampla variedade de tipos de perguntas e respostas, incluindo perguntas que exigem conhecimento sobre eventos que mudam rapidamente, bem como perguntas com premissas falsas que precisam ser refutadas. Uma ampla gama de LLMs proprietários e de código aberto é avaliada sob um procedimento de avaliação em dois modos, que permite medir tanto a correção quanto as alucinações. Por meio de avaliações humanas envolvendo mais de 50 mil julgamentos, o trabalho esclarece as limitações desses modelos e demonstra que há grande espaço para melhorias: por exemplo, foi constatado que todos os modelos, independentemente do tamanho, enfrentam dificuldades em perguntas que envolvem conhecimento em rápida mudança e premissas falsas. Com base nesses resultados, é apresentado o FreshPrompt, um método simples de prompting few-shot que melhora substancialmente o desempenho de um LLM no FreshQA ao incorporar ao prompt informações relevantes e atualizadas recuperadas de um mecanismo de busca. Os experimentos mostram que o FreshPrompt supera tanto métodos concorrentes de prompting aumentados por mecanismo de busca, como o Self-Ask (Press et al., 2022), quanto sistemas comerciais como o Perplexity.AI. Uma análise adicional do FreshPrompt revela que tanto o número de evidências recuperadas quanto sua ordem desempenham um papel fundamental em influenciar a correção das respostas geradas por LLMs. Além disso, instruir o LLM a gerar respostas concisas e diretas ajuda a reduzir alucinações em comparação com incentivar respostas mais verbosas. Para facilitar trabalhos futuros, o FreshQA foi disponibilizado em github.com/freshllms/freshqa e será atualizado regularmente.

Most large language models (LLMs) are trained once and never updated; thus, they lack the ability to dynamically adapt to our ever-changing world. In this work, we perform a detailed study of the factuality of LLM-generated text in the context of answering questions that test current world knowledge. Specifically, we introduce FreshQA, a novel dynamic QA benchmark encompassing a diverse range of question and answer types, including questions that require fast-changing world knowledge as well as questions with false premises that need to be debunked. We benchmark a diverse array of both closed and open-source LLMs under a two-mode evaluation procedure that allows us to measure both correctness and hallucination. Through human evaluations involving more than 50K judgments, we shed light on limitations of these models and demonstrate significant room for improvement: for instance, all models (regardless of model size) struggle on questions that involve fast-changing knowledge and false premises. Motivated by these results, we present FreshPrompt, a simple few-shot prompting method that substantially boosts the performance of an LLM on FreshQA by incorporating relevant and up-to-date information retrieved from a search engine into the prompt. Our experiments show that FreshPrompt outperforms both competing search engine-augmented prompting methods such as Self-Ask (Press et al., 2022) as well as commercial systems such as Perplexity.AI. Further analysis of FreshPrompt reveals that both the number of retrieved evidences and their order play a key role in influencing the correctness of LLM-generated answers. Additionally, instructing the LLM to generate concise and direct answers helps reduce hallucination compared to encouraging more verbose answers. To facilitate future work, we release FreshQA at github.com/freshllms/freshqa and commit to updating it at regular intervals.

Link do artigo

https://arxiv.org/abs/2310.03214

Texto original

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-fc8

[2023/11/06 ~ 11/12] Principais artigos de ML da semana (Top ML Papers of the Week)

Visão geral

Pesquisa sobre alucinação em grandes modelos de linguagem: princípios, taxonomia, desafios e questões em aberto / A Survey on Hallucination in Large Language Models: Principles, Taxonomy, Challenges, and Open Questions

Apresentação do artigo

Resumo do artigo

Link do artigo

Leia mais

Simplificando blocos Transformer / Simplifying Transformer Blocks

Apresentação do artigo

Resumo do artigo

Link do artigo

Leia mais

Misturas de dados de pré-treinamento permitem capacidades mais restritas de seleção de modelos em modelos Transformer / Pretraining Data Mixtures Enable Narrow Model Selection Capabilities in Transformer Models

Apresentação do artigo

Resumo do artigo

Link do artigo

Leia mais

Geração de música simples e controlável / Simple and Controllable Music Generation

Introdução do artigo

Resumo do artigo

Link do artigo

Leia mais

Atualizações alternadas para modelos Transformer eficientes / Alternating Updates for Efficient Transformers

Introdução do artigo

Resumo do artigo

Link do artigo

Leia mais

Reformule e responda: faça grandes modelos de linguagem fazerem perguntas melhores para si mesmos / Rephrase and Respond: Let Large Language Models Ask Better Questions for Themselves

Apresentação do artigo

Resumo do artigo

Link do artigo

Leia mais

Rodando pelas estradas com o GPT-4V(ision): explorações iniciais de modelos visuais-linguísticos em direção autônoma / On the Road with GPT-4V(ision): Early Explorations of Visual-Language Model on Autonomous Driving

Introdução do artigo

Resumo do artigo

Link do artigo

Leia mais

GPT4All: ecossistema open source de modelos de linguagem comprimidos / GPT4All: An Ecosystem of Open Source Compressed Language Models

Introdução ao artigo

Resumo do artigo

Link do artigo

Leia mais

S-LoRA: oferecendo serviço para milhares de adaptadores LoRA simultâneos / S-LoRA: Serving Thousands of Concurrent LoRA Adapters

Apresentação do artigo

Resumo do artigo

Link do artigo

Leia mais

FreshLLM: atualização de grandes modelos de linguagem com reforço de mecanismo de busca / FreshLLMs: Refreshing Large Language Models with Search Engine Augmentation

Apresentação do artigo

Resumo do artigo

Link do artigo

Leia mais

Texto original

Leituras relacionadas

Ainda não há comentários.