08] Principais artigos de ML da semana (Top ML Papers of the Week)

(discuss.pytorch.kr)

2 pontos por ninebow 2023-10-09 | Ainda não há comentários. | Compartilhar no WhatsApp

Visão geral

Fizemos uma tradução automática do texto semanal da DAIR.AI sobre artigos de ML publicados a cada semana.
Ao analisar os artigos apresentados nesta semana, houve muitos estudos sobre modelos de linguagem (Language Models, LLM) que lidam com contexto de longo prazo (Long Context). Em especial, artigos como 'LLMs Represent Space and Time', 'Retrieval meets Long Context LLMs', 'StreamingLLM', 'The Dawn of LLMs' e 'Training LLMs with Pause Tokens' destacam diferentes aspectos dos LLMs.
Essa tendência é um exemplo representativo de como a importância dos modelos de linguagem em machine learning e deep learning continua aumentando. LLMs são uma tecnologia que aprende grandes volumes de dados linguísticos e possibilita melhorias gerais de desempenho em várias tarefas de compreensão de linguagem, como geração de sentenças, tradução automática e correção ortográfica. No entanto, ainda existem muitas dificuldades para processar contextos de longa duração. Parece que diversas abordagens estão sendo propostas para resolver esse problema.
Além disso, artigos como 'Neural Developmental Programs', 'Recursively Self-Improving Code Generation' e 'Retrieval-Augmented Dual Instruction Tuning' exploram temas como autoaprendizado de IA, geração de código e instruction tuning. Isso mostra que novas metodologias continuam surgindo na IA, e espera-se que essas pesquisas desempenhem um papel muito importante no aprimoramento da capacidade de autoaprendizado e adaptabilidade das tecnologias de IA.
Portanto, pode-se dizer que a tendência dos artigos desta semana mostra novas direções de pesquisa no processamento de contexto longo por modelos de linguagem, bem como nas áreas de autoaprendizado de IA e geração de código.

Modelos de linguagem representam espaço e tempo / Language Models Represent Space and Time

Introdução do artigo

Foi descoberto que modelos de linguagem aprendem representações lineares de espaço e tempo em múltiplas escalas, e que essas representações são robustas a variações de prompt e unificadas entre diferentes tipos de entidades; com isso, argumenta-se que os modelos de linguagem aprendem não apenas estatísticas superficiais, mas modelos literais do mundo, demonstrando que adquirem conhecimento estruturado fundamental como espaço e tempo. #llm #llama2

Discovers that llms learn linear representations of space and time across multiple scales; the representations are robust to prompt variations and unified across different entity types; demonstrate that llms acquire fundamental structured knowledge such as space and time, claiming that language models learn beyond superficial statistics, but literal world models.

Resumo do artigo

As capacidades dos grandes modelos de linguagem (LLMs) vêm alimentando o debate sobre se esses sistemas apenas aprendem uma enorme coleção de estatísticas superficiais ou um modelo coerente do processo de geração de dados — isto é, um modelo de mundo. Encontramos evidências para a segunda hipótese ao analisar as representações aprendidas em três conjuntos de dados espaciais (mundo, EUA e locais de Nova York) e três conjuntos de dados temporais (figuras históricas, obras de arte e manchetes de notícias) na família de modelos Llama-2. Como resultado, descobrimos que os LLMs aprendem representações lineares de espaço e tempo em múltiplas escalas. Essas representações são robustas a variações de prompting e unificadas entre diferentes tipos de entidades (por exemplo, cidades e marcos). Além disso, identificamos 'neurônios de espaço' e 'neurônios de tempo' individuais que codificam de forma confiável coordenadas espaciais e temporais. Nossa análise sustenta a visão de que os LLMs modernos adquirem conhecimento estruturado sobre dimensões fundamentais como espaço e tempo, aprendendo não apenas estatísticas superficiais, mas modelos literais do mundo.

The capabilities of large language models (LLMs) have sparked debate over whether such systems just learn an enormous collection of superficial statistics or a coherent model of the data generating process -- a world model. We find evidence for the latter by analyzing the learned representations of three spatial datasets (world, US, NYC places) and three temporal datasets (historical figures, artworks, news headlines) in the Llama-2 family of models. We discover that LLMs learn linear representations of space and time across multiple scales. These representations are robust to prompting variations and unified across different entity types (e.g. cities and landmarks). In addition, we identify individual space neurons'' and time neurons'' that reliably encode spatial and temporal coordinates. Our analysis demonstrates that modern LLMs acquire structured knowledge about fundamental dimensions such as space and time, supporting the view that they learn not merely superficial statistics, but literal world models.

Link do artigo

https://arxiv.org/abs/2310.02207

O encontro entre busca e grandes modelos de linguagem de contexto longo / Retrieval meets Long Context Large Language Models

Introdução do artigo

Compara augmentação por recuperação e janelas de contexto longas em tarefas downstream para investigar se é possível combinar os dois métodos e obter o melhor dos dois mundos; um llm com janela de contexto de 4K usando RAG simples pode alcançar desempenho comparável ao de um llm ajustado com 16K de contexto; a recuperação pode melhorar significativamente o desempenho dos llms independentemente do tamanho ampliado da janela de contexto; um llama2-70b com augmentação por recuperação e janela de contexto de 32K supera o gpt-3.5-turbo-16k em sete tarefas de contexto longo, incluindo pergunta e resposta e sumarização baseada em consulta. #llama #llama2-7b-32k-context #llama2-long #100k-context-window #streamingllm

Compares retrieval augmentation and long-context windows for downstream tasks to investigate if the methods can be combined to get the best of both worlds; an llm with a 4k context window using simple rag can achieve comparable performance to a fine-tuned llm with 16k context; retrieval can significantly improve the performance of llms regardless of their extended context window sizes; a retrieval-augmented llama2-70b with a 32k context window outperforms gpt-3.5-turbo-16k on seven long context tasks including question answering and query-based summarization.

Resumo do artigo

Embora expandir a janela de contexto dos grandes modelos de linguagem (LLMs) tenha ganhado popularidade recentemente, a solução de reforçar LLMs com recuperação já existe há anos. As perguntas naturais são: i) entre augmentation via recuperação e janela de contexto longa, qual é melhor para tarefas downstream? ii) É possível combinar os dois métodos para obter o melhor dos dois mundos? Este estudo responde a essas perguntas ao investigar as duas soluções usando dois LLMs pré-treinados de ponta: um GPT proprietário de 43B e o LLaMA2-70B. Surpreendentemente, os autores descobriram que um LLM com janela de contexto de 4K usando uma simples augmentation por recuperação durante a geração pode alcançar desempenho comparável ao de um LLM ajustado com janela de contexto de 16K via interpolação posicional em tarefas de contexto longo, exigindo muito menos computação. Mais importante ainda, foi demonstrado que a recuperação pode melhorar significativamente o desempenho dos LLMs independentemente do tamanho expandido da janela de contexto. O melhor modelo, o LLaMA2-70B com augmentation por recuperação e janela de contexto de 32K, supera o GPT-3.5-turbo-16k e o Davinci003 em pontuação média em sete tarefas de contexto longo, incluindo resposta a perguntas e sumarização baseada em consulta. Ele também supera com folga a linha de base LLaMA2-70B-32k sem recuperação, além de ser muito mais rápido na geração. Este estudo oferece insights gerais para profissionais que estão decidindo entre augmentation por recuperação e expansão de contexto longo em LLMs.

Extending the context window of large language models (LLMs) is getting popular recently, while the solution of augmenting LLMs with retrieval has existed for years. The natural questions are: i) Retrieval-augmentation versus long context window, which one is better for downstream tasks? ii) Can both methods be combined to get the best of both worlds? In this work, we answer these questions by studying both solutions using two state-of-the-art pretrained LLMs, i.e., a proprietary 43B GPT and LLaMA2-70B. Perhaps surprisingly, we find that LLM with 4K context window using simple retrieval-augmentation at generation can achieve comparable performance to finetuned LLM with 16K context window via positional interpolation on long context tasks, while taking much less computation. More importantly, we demonstrate that retrieval can significantly improve the performance of LLMs regardless of their extended context window sizes. Our best model, retrieval-augmented LLaMA2-70B with 32K context window, outperforms GPT-3.5-turbo-16k and Davinci003 in terms of average score on seven long context tasks including question answering and query-based summarization. It also outperforms its non-retrieval LLaMA2-70B-32k baseline by a margin, while being much faster at generation. Our study provides general insights on the choice of retrieval-augmentation versus long context extension of LLM for practitioners.

Link do artigo

https://arxiv.org/abs/2310.03025

Modelos de linguagem de streaming eficientes com attention sinks / Efficient Streaming Language Models with Attention Sinks

Apresentação do artigo

Um framework que viabiliza LLMs de streaming eficientes com attention sinks, um fenômeno em que os estados kv dos tokens iniciais recuperam em grande parte o desempenho da atenção em janela; o surgimento do attention sink ocorre devido às fortes pontuações de atenção direcionadas aos tokens iniciais; com essa abordagem, LLMs treinados com janelas de atenção de comprimento finito podem generalizar para sequências de comprimento infinito sem qualquer ajuste fino adicional. #streamingllm

A framework that enables efficient streaming llms with attention sinks, a phenomenon where the kv states of initial tokens will largely recover the performance of window attention; the emergence of the attention sink is due to strong attention scores towards the initial tokens; this approach enables llms trained with finite length attention windows to generalize to infinite sequence length without any additional fine-tuning.

Resumo do artigo

Implantar grandes modelos de linguagem (LLMs) em aplicações de streaming, como diálogos de múltiplas rodadas, em que se esperam interações longas, é algo urgentemente necessário, mas há dois grandes desafios. Primeiro, durante a etapa de decodificação, o cache dos estados de chave e valor (KV) dos tokens anteriores consome muita memória. Segundo, os LLMs amplamente usados não conseguem generalizar para textos mais longos do que o comprimento de sequência usado no treinamento. A atenção em janela, na qual apenas os KVs mais recentes são armazenados em cache, é uma abordagem natural, mas mostra-se falha quando o comprimento do texto ultrapassa o tamanho do cache. Observa-se um fenômeno interessante, chamado attention sink, em que manter o KV dos tokens iniciais recupera em grande parte o desempenho da atenção em janela. Neste artigo, os autores primeiro demonstram que o surgimento do attention sink se deve às altas pontuações de atenção direcionadas aos tokens iniciais como um "sumidouro", mesmo quando eles não são semanticamente importantes. Com base nessa análise, apresentam o StreamingLLM, um framework eficiente que permite que LLMs treinados com uma janela de atenção de comprimento finito generalizem para comprimentos de sequência infinitos sem qualquer ajuste fino. Os autores mostram que o StreamingLLM permite que Llama-2, MPT, Falcon e Pythia realizem modelagem de linguagem estável e eficiente com até 4 milhões de tokens ou mais. Além disso, descobriram que adicionar um token placeholder como attention sink dedicado durante o pré-treinamento pode melhorar ainda mais a implantação em streaming. Em cenários de streaming, o StreamingLLM supera o baseline de recomputação com janela deslizante com ganho de velocidade de até 22,2x. O código e os conjuntos de dados estão disponíveis em https://github.com/mit-han-lab/streaming-llm.

Deploying Large Language Models (LLMs) in streaming applications such as multi-round dialogue, where long interactions are expected, is urgently needed but poses two major challenges. Firstly, during the decoding stage, caching previous tokens' Key and Value states (KV) consumes extensive memory. Secondly, popular LLMs cannot generalize to longer texts than the training sequence length. Window attention, where only the most recent KVs are cached, is a natural approach -- but we show that it fails when the text length surpasses the cache size. We observe an interesting phenomenon, namely attention sink, that keeping the KV of initial tokens will largely recover the performance of window attention. In this paper, we first demonstrate that the emergence of attention sink is due to the strong attention scores towards initial tokens as a ``sink'' even if they are not semantically important. Based on the above analysis, we introduce StreamingLLM, an efficient framework that enables LLMs trained with a finite length attention window to generalize to infinite sequence lengths without any fine-tuning. We show that StreamingLLM can enable Llama-2, MPT, Falcon, and Pythia to perform stable and efficient language modeling with up to 4 million tokens and more. In addition, we discover that adding a placeholder token as a dedicated attention sink during pre-training can further improve streaming deployment. In streaming settings, StreamingLLM outperforms the sliding window recomputation baseline by up to 22.2x speedup. Code and datasets are provided at https://github.com/mit-han-lab/streaming-llm.

Link do artigo

https://arxiv.org/abs/2309.17453

Rumo a redes neurais artificiais auto-organizáveis por meio de programas de desenvolvimento neural / Towards Self-Assembling Artificial Neural Networks through Neural Developmental Programs

Apresentação do artigo

Propõe o uso de redes neurais que se auto-organizam por meio de um processo de desenvolvimento que espelha propriedades do desenvolvimento embrionário em organismos biológicos (chamado de programas de desenvolvimento neural) e mostra a viabilidade dessa abordagem em problemas de controle contínuo e topologias em crescimento.

Proposes to use neural networks that self-assemble through a developmental process that mirrors properties of embryonic development in biological organisms (referred to as neural developmental programs); shows the feasibility of the approach in continuous control problems and growing topologies.

Resumo do artigo

Os sistemas nervosos biológicos são criados de uma forma fundamentalmente diferente das redes neurais artificiais atuais. Apesar dos resultados impressionantes em vários domínios, o deep learning frequentemente exige um esforço considerável de engenharia para projetar arquiteturas neurais de alto desempenho. Em contraste, os sistemas nervosos biológicos crescem por meio de um processo dinâmico de auto-organização. Neste artigo, damos os passos iniciais rumo a redes neurais que crescem por meio de um processo de desenvolvimento que reflete propriedades-chave do desenvolvimento embrionário em organismos biológicos. O processo de crescimento é guiado por outra rede neural, que chamamos de Neural Developmental Program (NDP), e que opera apenas por comunicação local. Investigamos o papel do crescimento neural em diferentes benchmarks de aprendizado de máquina e diferentes métodos de otimização (treinamento evolutivo, RL online, RL offline e aprendizado supervisionado). Além disso, destacamos direções futuras de pesquisa e oportunidades viabilizadas por uma auto-organização conduzindo o crescimento de redes neurais.

Biological nervous systems are created in a fundamentally different way than current artificial neural networks. Despite its impressive results in a variety of different domains, deep learning often requires considerable engineering effort to design high-performing neural architectures. By contrast, biological nervous systems are grown through a dynamic self-organizing process. In this paper, we take initial steps toward neural networks that grow through a developmental process that mirrors key properties of embryonic development in biological organisms. The growth process is guided by another neural network, which we call a Neural Developmental Program (NDP) and which operates through local communication alone. We investigate the role of neural growth on different machine learning benchmarks and different optimization methods (evolutionary training, online RL, offline RL, and supervised learning). Additionally, we highlight future research directions and opportunities enabled by having self-organization driving the growth of neural networks.

Link do artigo

https://arxiv.org/abs/2307.08197

A aurora dos LMMs: explorações preliminares com GPT-4V(ision) / The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)

Apresentação do artigo

Para aprofundar a compreensão sobre grandes modelos multimodais (LMMs), este trabalho analisa de forma abrangente o gpt-4v, com foco em investigá-lo em vários cenários de aplicação, e fornece diversos exemplos que vão desde capacidades de código com visão até LMMs com recuperação aumentada. #multimodal #gpt-4v

A comprehensive analysis of gpt-4v to deepen the understanding of large multimodal models (lmms); it focuses on probing gpt-4v across various application scenarios; provides examples ranging from code capabilities with vision to retrieval-augmented lmms.

Resumo do artigo

Grandes modelos multimodais (LMMs) expandem os grandes modelos de linguagem (LLMs) com habilidades multissensoriais, como compreensão visual, para alcançar uma inteligência geral mais forte. Neste artigo, analisamos o modelo mais recente, GPT-4V(ision), para aprofundar a compreensão sobre os LMMs. A análise se concentra nas tarefas intrigantes que o GPT-4V pode realizar e inclui amostras de teste para investigar a qualidade e a generalidade de suas capacidades, seus modos de entrada e operação suportados, e formas eficazes de conduzir o modelo por meio de prompts. Em nossa abordagem para explorar o GPT-4V, selecionamos e organizamos uma coleção de amostras qualitativas cuidadosamente projetadas, abrangendo uma variedade de domínios e tarefas. As observações dessas amostras demonstram que a capacidade sem precedentes do GPT-4V de processar entradas multimodais intercaladas de forma arbitrária, combinada com a generalidade de suas capacidades, faz dele um poderoso sistema generalista multimodal. Além disso, a capacidade singular do GPT-4V de compreender marcadores visuais desenhados nas imagens de entrada pode dar origem a novos métodos de interação humano-computador, como prompts referenciais visuais. Encerramos o relatório com discussões aprofundadas sobre cenários emergentes de aplicação e direções futuras de pesquisa para sistemas baseados em GPT-4V. Esperamos que esta exploração preliminar inspire pesquisas futuras sobre a formulação da próxima geração de tarefas multimodais, novas maneiras de explorar e aprimorar LMMs para resolver problemas do mundo real e uma melhor compreensão dos modelos fundacionais multimodais.

Large multimodal models (LMMs) extend large language models (LLMs) with multi-sensory skills, such as visual understanding, to achieve stronger generic intelligence. In this paper, we analyze the latest model, GPT-4V(ision), to deepen the understanding of LMMs. The analysis focuses on the intriguing tasks that GPT-4V can perform, containing test samples to probe the quality and genericity of GPT-4V's capabilities, its supported inputs and working modes, and the effective ways to prompt the model. In our approach to exploring GPT-4V, we curate and organize a collection of carefully designed qualitative samples spanning a variety of domains and tasks. Observations from these samples demonstrate that GPT-4V's unprecedented ability in processing arbitrarily interleaved multimodal inputs and the genericity of its capabilities together make GPT-4V a powerful multimodal generalist system. Furthermore, GPT-4V's unique capability of understanding visual markers drawn on input images can give rise to new human-computer interaction methods such as visual referring prompting. We conclude the report with in-depth discussions on the emerging application scenarios and the future research directions for GPT-4V-based systems. We hope that this preliminary exploration will inspire future research on the next-generation multimodal task formulation, new ways to exploit and enhance LMMs to solve real-world problems, and gaining better understanding of multimodal foundation models.

Link do artigo

https://arxiv.org/abs/2309.17421

Pense antes de falar: treinando modelos de linguagem com tokens de pausa / Think before you speak: Training Language Models With Pause Tokens

Introdução ao artigo

Usa o token aprendível <pause> para realizar treinamento e inferência em LLMs, o que ajuda a adiar a geração da resposta do modelo e a obter ganhos de desempenho em tarefas gerais de compreensão, como perguntas e respostas de senso comum e resolução de problemas matemáticos em linguagem natural. Os experimentos mostram que isso só é benéfico quando o atraso é introduzido tanto no pretraining quanto no fine-tuning downstream. #pause-for-thought

Performs training and inference on llms with a learnable <pause> token which helps to delay the model's answer generation and attain performance gains on general understanding tasks of commonsense qa and math word problem-solving; experiments show that this is only beneficial provided that the delay is introduced in both pertaining and downstream fine-tuning.

Resumo do artigo

Modelos de linguagem geram respostas produzindo uma sequência de tokens em sucessão imediata. O $(K+1)^{th}$ token é o resultado da manipulação de $K$ vetores ocultos por camada, um vetor para cada token anterior. Mas e se, em vez disso, deixássemos o modelo manipular, digamos, $K+10$ vetores ocultos antes de emitir o $(K+1)^{th}$ token? Operacionalizamos essa ideia realizando treinamento e inferência em modelos de linguagem com um token $\textit{pause}$ (aprendível), cuja sequência é anexada ao prefixo de entrada. Em seguida, adiamos a extração das saídas do modelo até que o último token de pausa apareça, permitindo que o modelo processe computação adicional antes de se comprometer com uma resposta. Avaliamos empiricamente o $\textit{pause-training}$ em modelos decoder-only de 1B e 130M de parâmetros com pretraining causal em C4, e em tarefas downstream que cobrem raciocínio, perguntas e respostas, compreensão geral e recordação factual. Nossa principal constatação é que atrasos no tempo de inferência trazem ganhos quando o modelo é tanto pré-treinado quanto ajustado com atrasos. Para o modelo de 1B, observamos ganhos em 8 de 9 tarefas, com destaque para um ganho de $18%$ na pontuação EM na tarefa de QA do SQuAD, $8%$ no CommonSenseQA e $1%$ de acurácia na tarefa de raciocínio do GSM8k. Nosso trabalho levanta uma série de questões conceituais e práticas para pesquisas futuras sobre como tornar a predição atrasada do próximo token um novo paradigma amplamente aplicável.

Language models generate responses by producing a series of tokens in immediate succession: the $(K+1)^{th}$ token is an outcome of manipulating $K$ hidden vectors per layer, one vector per preceding token. What if instead we were to let the model manipulate say, $K+10$ hidden vectors, before it outputs the $(K+1)^{th}$ token? We operationalize this idea by performing training and inference on language models with a (learnable) $\textit{pause}$ token, a sequence of which is appended to the input prefix. We then delay extracting the model's outputs until the last pause token is seen, thereby allowing the model to process extra computation before committing to an answer. We empirically evaluate $\textit{pause-training}$ on decoder-only models of 1B and 130M parameters with causal pretraining on C4, and on downstream tasks covering reasoning, question-answering, general understanding and fact recall. Our main finding is that inference-time delays show gains when the model is both pre-trained and finetuned with delays. For the 1B model, we witness gains on 8 of 9 tasks, most prominently, a gain of $18%$ EM score on the QA task of SQuAD, $8%$ on CommonSenseQA and $1%$ accuracy on the reasoning task of GSM8k. Our work raises a range of conceptual and practical future research questions on making delayed next-token prediction a widely applicable new paradigm.

Link do artigo

https://arxiv.org/abs/2310.02226

Self-Taught Optimizer (STOP): geração de código que melhora a si mesma recursivamente / Self-Taught Optimizer (STOP): Recursively Self-Improving Code Generation

Introdução ao artigo

Propõe o uso de um programa de scaffolding com modelo de linguagem incorporado para melhorar a si mesmo recursivamente; um melhorador inicial primeiro melhora um programa de entrada que retorna a melhor solução, que então recebe a tarefa adicional de melhorar a si próprio; mostra que os modelos gpt-4 podem escrever código capaz de chamar a si mesmos para se melhorar. #self-training-survey-paper

Proposes the use of a language model-infused scaffolding program to recursively improve itself; a seed improver first improves an input program that returns the best solution which is then further tasked to improve itself; shows that the gpt-4 models can write code that can call itself to improve itself.

Resumo do artigo

Alguns avanços recentes em sistemas de IA (por exemplo, Tree-of-Thoughts e Program-Aided Language Models) resolvem problemas fornecendo um programa de "scaffolding" que estrutura várias chamadas a modelos de linguagem para gerar saídas melhores. Um programa de scaffolding é escrito em uma linguagem de programação como Python. Neste trabalho, usamos um programa de scaffolding com modelo de linguagem incorporado para melhorar a si próprio. Começamos com um "improver" inicial que melhora um programa de entrada de acordo com uma determinada função de utilidade, consultando um modelo de linguagem várias vezes e retornando a melhor solução. Em seguida, executamos esse improver inicial para que ele melhore a si próprio. Em um pequeno conjunto de tarefas downstream, o improver aprimorado resultante gera programas com desempenho significativamente melhor do que o improver inicial. Depois, analisamos a variedade de estratégias de autoaperfeiçoamento propostas pelo modelo de linguagem, incluindo beam search, algoritmos genéticos e simulated annealing. Como os próprios modelos de linguagem não são alterados, isso não constitui autoaperfeiçoamento recursivo completo. Ainda assim, em experimentos de prova de conceito, mostramos que um modelo de linguagem moderno, o GPT-4, é capaz de escrever código que pode chamar a si próprio para se melhorar. Consideramos de forma crítica as preocupações em torno do desenvolvimento de tecnologias de autoaperfeiçoamento e avaliamos com que frequência o código gerado contorna um sandbox.

Several recent advances in AI systems (e.g., Tree-of-Thoughts and Program-Aided Language Models) solve problems by providing a "scaffolding" program that structures multiple calls to language models to generate better outputs. A scaffolding program is written in a programming language such as Python. In this work, we use a language-model-infused scaffolding program to improve itself. We start with a seed "improver" that improves an input program according to a given utility function by querying a language model several times and returning the best solution. We then run this seed improver to improve itself. Across a small set of downstream tasks, the resulting improved improver generates programs with significantly better performance than its seed improver. Afterward, we analyze the variety of self-improvement strategies proposed by the language model, including beam search, genetic algorithms, and simulated annealing. Since the language models themselves are not altered, this is not full recursive self-improvement. Nonetheless, it demonstrates that a modern language model, GPT-4 in our proof-of-concept experiments, is capable of writing code that can call itself to improve itself. We critically consider concerns around the development of self-improving technologies and evaluate the frequency with which the generated code bypasses a sandbox.

Link do artigo

https://arxiv.org/abs/2310.02304

RA-DIT: ajuste fino dual com aumento por recuperação / RA-DIT: Retrieval-Augmented Dual Instruction Tuning

Introdução ao artigo

Propõe um método leve de ajuste fino para adicionar capacidades de recuperação a redes neurais artificiais. Ele envolve uma abordagem em duas etapas: 1) atualizar uma rede neural artificial pré-treinada para usar melhor as informações recuperadas e 2) atualizar o recuperador para retornar resultados mais relevantes. Os resultados mostram que, em tarefas que exigem tanto uso de conhecimento quanto consciência contextual, o ajuste fino traz ganhos adicionais em cada etapa. O modelo de 65b alcança resultados de estado da arte em vários benchmarks intensivos em conhecimento de aprendizado zero-shot e few-shot, com desempenho até +8% superior às abordagens anteriores de linguagem aumentada por recuperação. No zero-shot, +8,9%; no 5-shot, +1,4%. #rag #instruct-tuning

Proposes a lightweight fine-tuning method to retrofit llms with retrieval capabilities; it involves a 2-step approach: 1) updates a pretrained lm to better use the retrieved information 2) updates the retriever to return more relevant results, as preferred by the lm results show that fine-tuning over tasks that require both knowledge utilization and contextual awareness, each stage leads to additional gains; a 65b model achieves state-of-the-art results on a range of knowledge-intensive zero- and few-shot learning benchmarks; it outperforms existing retrieval-augmented language approaches by up to +8.9% in zero-shot and +1.4% in 5-shot.

Resumo do artigo

Modelos de linguagem com aumento por recuperação (RALM) melhoram o desempenho ao acessar conhecimento de cauda longa e atualizado de armazenamentos de dados externos, mas são difíceis de construir. As abordagens existentes exigem modificações específicas de recuperação no pré-treinamento do LM, o que é caro, ou usam integração posterior do armazenamento de dados, levando a um desempenho subótimo. Apresentamos o Retrieval-Augmented Dual Instruction Tuning (RA-DIT), uma metodologia leve de fine-tuning que oferece uma terceira opção ao adaptar qualquer LLM com capacidades de recuperação. A abordagem da Unity opera em duas etapas distintas de fine-tuning: (1) uma atualiza um LM pré-treinado para usar melhor as informações recuperadas, enquanto (2) a outra atualiza o recuperador para retornar resultados mais relevantes, de acordo com a preferência do LM. Ao fazer fine-tuning em tarefas que exigem tanto uso de conhecimento quanto consciência contextual, demonstramos que cada etapa gera melhorias significativas de desempenho, e usar ambas traz ganhos adicionais. Nosso melhor modelo, RA-DIT 65B, alcança desempenho de ponta em uma variedade de benchmarks intensivos em conhecimento de aprendizado zero-shot e few-shot, superando significativamente as abordagens RALM in-context existentes em até +8,9% no cenário 0-shot e +1,4% no cenário 5-shot, em média.

Retrieval-augmented language models (RALMs) improve performance by accessing long-tail and up-to-date knowledge from external data stores, but are challenging to build. Existing approaches require either expensive retrieval-specific modifications to LM pre-training or use post-hoc integration of the data store that leads to suboptimal performance. We introduce Retrieval-Augmented Dual Instruction Tuning (RA-DIT), a lightweight fine-tuning methodology that provides a third option by retrofitting any LLM with retrieval capabilities. Our approach operates in two distinct fine-tuning steps: (1) one updates a pre-trained LM to better use retrieved information, while (2) the other updates the retriever to return more relevant results, as preferred by the LM. By fine-tuning over tasks that require both knowledge utilization and contextual awareness, we demonstrate that each stage yields significant performance improvements, and using both leads to additional gains. Our best model, RA-DIT 65B, achieves state-of-the-art performance across a range of knowledge-intensive zero- and few-shot learning benchmarks, significantly outperforming existing in-context RALM approaches by up to +8.9% in 0-shot setting and +1.4% in 5-shot setting on average.

Link do artigo

https://arxiv.org/abs/2310.01352

Kosmos-G: geração de imagens contextualizadas com modelos multimodais de linguagem de grande escala / Kosmos-G: Generating Images in Context with Multimodal Large Language Models

Introdução ao artigo

É um modelo capaz de realizar geração de imagens zero-shot de alta fidelidade a partir de entradas gerais de visão-linguagem que abrangem várias imagens, estender a geração de imagens zero-shot guiada por sujeito para cenários com múltiplas entidades e substituir o CLIP, liberando novas aplicações com outras técnicas de U-Net, como ControlNet e LoRA. #multimodal

A model that performs high-fidelity zero-shot image generation from generalized vision-language input that spans multiple images; extends zero-shot subject-driven image generation to multi-entity scenarios; allows the replacement of clip, unlocking new applications with other u-net techniques such as controlnet and lora.

Resumo do artigo

Avanços recentes em geração de texto para imagem (T2I) e de visão-linguagem para imagem (VL2I) fizeram progressos significativos. No entanto, a geração a partir de entradas generalizadas de visão-linguagem, especialmente envolvendo várias imagens, ainda é pouco explorada. Este artigo apresenta o Kosmos-G, um modelo que aproveita as capacidades avançadas de percepção dos modelos multimodais de linguagem de grande escala (MLLMs) para enfrentar esse desafio. Nossa abordagem alinha o espaço de saída do MLLM com o CLIP usando a modalidade textual como âncora e realiza instruction tuning composicional em dados curados. O Kosmos-G demonstra uma capacidade única de geração zero-shot guiada por sujeito com múltiplas entidades. Notavelmente, o score distillation instruction tuning não requer modificações no decodificador de imagens. Isso permite substituir o CLIP de forma transparente e integrar-se facilmente a uma infinidade de técnicas de U-Net, desde controles refinados até variantes personalizadas de decodificadores de imagem. Consideramos o Kosmos-G uma tentativa inicial rumo ao objetivo de “imagem como língua estrangeira na geração de imagens”.

Recent advancements in text-to-image (T2I) and vision-language-to-image (VL2I) generation have made significant strides. However, the generation from generalized vision-language inputs, especially involving multiple images, remains under-explored. This paper presents Kosmos-G, a model that leverages the advanced perception capabilities of Multimodal Large Language Models (MLLMs) to tackle the aforementioned challenge. Our approach aligns the output space of MLLM with CLIP using the textual modality as an anchor and performs compositional instruction tuning on curated data. Kosmos-G demonstrates a unique capability of zero-shot multi-entity subject-driven generation. Notably, the score distillation instruction tuning requires no modifications to the image decoder. This allows for a seamless substitution of CLIP and effortless integration with a myriad of U-Net techniques ranging from fine-grained controls to personalized image decoder variants. We posit Kosmos-G as an initial attempt towards the goal of "image as a foreign language in image generation."

Link do artigo

https://arxiv.org/abs/2310.02992

Grandes modelos de linguagem como raciocinadores analógicos / Large Language Models as Analogical Reasoners

Introdução ao artigo

Essa abordagem difere de chain-of-thought por não exigir exemplos rotulados do processo de raciocínio e propõe uma nova abordagem de prompting inspirada em raciocínio analógico, induzindo o modelo a gerar por conta própria exemplos ou conhecimentos relevantes no contexto. #llm-reasoning #chain-of-thought

A new prompting approach to automatically guide the reasoning process of llms; the approach is different from chain-of-thought in that it doesn’t require labeled exemplars of the reasoning process; the approach is inspired by analogical reasoning and prompts lms to self-generate relevant exemplars or knowledge in the context.

Resumo do artigo

O prompting de chain-of-thought (CoT) para modelos de linguagem demonstra desempenho impressionante em tarefas de raciocínio, mas normalmente exige exemplos rotulados do processo de raciocínio. Neste trabalho, apresentamos uma nova abordagem de prompting, chamada Analogical Prompting, projetada para orientar automaticamente o processo de raciocínio de grandes modelos de linguagem. Inspirada no raciocínio analógico, um processo cognitivo no qual humanos recorrem a experiências passadas relevantes para lidar com novos problemas, nossa abordagem leva os modelos de linguagem a gerar por conta própria exemplos ou conhecimentos relevantes no contexto antes de prosseguir para resolver o problema dado. Esse método apresenta várias vantagens: elimina a necessidade de rotular ou recuperar exemplos, oferecendo generalidade e conveniência; também pode ajustar os exemplos e conhecimentos gerados a cada problema, oferecendo adaptabilidade. Os resultados experimentais mostram que nossa abordagem supera o CoT zero-shot e o CoT few-shot manual em várias tarefas de raciocínio, incluindo resolução de problemas matemáticos no GSM8K e MATH, geração de código no Codeforces e outras tarefas de raciocínio no BIG-Bench.

Chain-of-thought (CoT) prompting for language models demonstrates impressive performance across reasoning tasks, but typically needs labeled exemplars of the reasoning process. In this work, we introduce a new prompting approach, Analogical Prompting, designed to automatically guide the reasoning process of large language models. Inspired by analogical reasoning, a cognitive process in which humans draw from relevant past experiences to tackle new problems, our approach prompts language models to self-generate relevant exemplars or knowledge in the context, before proceeding to solve the given problem. This method presents several advantages: it obviates the need for labeling or retrieving exemplars, offering generality and convenience; it can also tailor the generated exemplars and knowledge to each problem, offering adaptability. Experimental results show that our approach outperforms 0-shot CoT and manual few-shot CoT in a variety of reasoning tasks, including math problem solving in GSM8K and MATH, code generation in Codeforces, and other reasoning tasks in BIG-Bench.

Link do artigo

https://arxiv.org/abs/2310.01714

Texto original

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-9d9

[2023/10/02 ~ 10/08] Principais artigos de ML da semana (Top ML Papers of the Week)

Visão geral

Modelos de linguagem representam espaço e tempo / Language Models Represent Space and Time

Introdução do artigo

Resumo do artigo

Link do artigo

Leia mais

O encontro entre busca e grandes modelos de linguagem de contexto longo / Retrieval meets Long Context Large Language Models

Introdução do artigo

Resumo do artigo

Link do artigo

Leia mais

Modelos de linguagem de streaming eficientes com attention sinks / Efficient Streaming Language Models with Attention Sinks

Apresentação do artigo

Resumo do artigo

Link do artigo

Leia mais

Rumo a redes neurais artificiais auto-organizáveis por meio de programas de desenvolvimento neural / Towards Self-Assembling Artificial Neural Networks through Neural Developmental Programs

Apresentação do artigo

Resumo do artigo

Link do artigo

Leia mais

A aurora dos LMMs: explorações preliminares com GPT-4V(ision) / The Dawn of LMMs: Preliminary Explorations with GPT-4V(ision)

Apresentação do artigo

Resumo do artigo

Link do artigo

Leia mais

Pense antes de falar: treinando modelos de linguagem com tokens de pausa / Think before you speak: Training Language Models With Pause Tokens

Introdução ao artigo

Resumo do artigo

Link do artigo

Leia mais

Self-Taught Optimizer (STOP): geração de código que melhora a si mesma recursivamente / Self-Taught Optimizer (STOP): Recursively Self-Improving Code Generation

Introdução ao artigo

Resumo do artigo

Link do artigo

Leia mais

RA-DIT: ajuste fino dual com aumento por recuperação / RA-DIT: Retrieval-Augmented Dual Instruction Tuning

Introdução ao artigo

Resumo do artigo

Link do artigo

Leia mais

Kosmos-G: geração de imagens contextualizadas com modelos multimodais de linguagem de grande escala / Kosmos-G: Generating Images in Context with Multimodal Large Language Models

Introdução ao artigo

Resumo do artigo

Link do artigo

Leia mais

Grandes modelos de linguagem como raciocinadores analógicos / Large Language Models as Analogical Reasoners

Introdução ao artigo

Resumo do artigo

Link do artigo

Leia mais

Texto original

Leituras relacionadas

Ainda não há comentários.