10] Principais artigos de ML da semana (Top ML Papers of the Week)

(discuss.pytorch.kr)

5 pontos por ninebow 2023-09-13 | Ainda não há comentários. | Compartilhar no WhatsApp

Visão geral

Traduzimos automaticamente os artigos sobre papers de ML publicados semanalmente pela DAIR.AI.
Nesta semana, há muitos artigos sobre tecnologias de inteligência artificial, principalmente com foco em Transformers e Reinforcement Learning.

Transformers como máquinas de vetores de suporte / Transformers as Support Vector Machines

Apresentação do artigo

Foi identificado que a geometria de otimização da self-attention em transformers tem relação com problemas de SVM de margem rígida, e também que o gradient descent aplicado sem early stopping leva à regularização implícita e à convergência da self-attention; este estudo tem potencial para aprofundar a compreensão sobre modelos de linguagem.

Finds that the optimization geometry of self-attention in transformers exhibits a connection to hard-margin svm problems; also finds that gradient descent applied without early-stopping leads to implicit regularization and convergence of self-attention; this work has the potential to deepen the understanding of language models.

Resumo do artigo

Desde seu surgimento em "Attention Is All You Need", a arquitetura transformer tem liderado avanços revolucionários em NLP. A camada de atenção dentro do transformer recebe uma sequência de tokens de entrada $X$ e faz com que eles interajam por meio de similaridades pareadas calculadas como softmax $(XQK^\top X^\top)$, em que $(K,Q)$ são os parâmetros treináveis de key-query. Neste trabalho, estabelecemos uma equivalência formal entre a geometria de otimização da self-attention e um problema de SVM de margem rígida que separa tokens de entrada ótimos dos não ótimos usando restrições lineares sobre os produtos externos de pares de tokens. Esse formalismo nos permite caracterizar o viés implícito de transformers de 1 camada otimizados com gradient descent: (1) otimizar a camada de atenção com regularização decrescente, parametrizada por $(K,Q)$, converge em direção para uma solução de SVM que minimiza a norma nuclear do parâmetro combinado $W=KQ^\top$. Em vez disso, parametrizar diretamente por $W$ minimiza um objetivo de norma de Frobenius. Caracterizamos essa convergência, destacando que ela pode ocorrer em direção a direções localmente ótimas, e não globais. (2) Em complemento, provamos a convergência direcional local/global do gradient descent sob condições geométricas adequadas. Importante destacar que mostramos que a superparametrização acelera a convergência global ao garantir a viabilidade do problema de SVM e ao assegurar um cenário de otimização benigno, sem pontos estacionários. (3) Embora nossa teoria se aplique principalmente a cabeças de predição lineares, propomos uma equivalência de SVM mais geral que prevê o viés implícito com cabeças não lineares. Nossos resultados são aplicáveis a conjuntos de dados arbitrários e sua validade é verificada por meio de experimentos. Também apresentamos vários problemas em aberto e direções de pesquisa. Acreditamos que esses achados inspiram a interpretação de transformers como uma hierarquia de SVMs que separa e seleciona tokens ótimos.

Since its inception in "Attention Is All You Need", transformer architecture has led to revolutionary advancements in NLP. The attention layer within the transformer admits a sequence of input tokens $X$ and makes them interact through pairwise similarities computed as softmax $(XQK^\top X^\top)$ , where $(K,Q)$ are the trainable key-query parameters. In this work, we establish a formal equivalence between the optimization geometry of self-attention and a hard-margin SVM problem that separates optimal input tokens from non-optimal tokens using linear constraints on the outer-products of token pairs. This formalism allows us to characterize the implicit bias of 1-layer transformers optimized with gradient descent: (1) Optimizing the attention layer with vanishing regularization, parameterized by $(K,Q)$, converges in direction to an SVM solution minimizing the nuclear norm of the combined parameter $W=KQ^\top$. Instead, directly parameterizing by $W$ minimizes a Frobenius norm objective. We characterize this convergence, highlighting that it can occur toward locally-optimal directions rather than global ones. (2) Complementing this, we prove the local/global directional convergence of gradient descent under suitable geometric conditions. Importantly, we show that over-parameterization catalyzes global convergence by ensuring the feasibility of the SVM problem and by guaranteeing a benign optimization landscape devoid of stationary points. (3) While our theory applies primarily to linear prediction heads, we propose a more general SVM equivalence that predicts the implicit bias with nonlinear heads. Our findings are applicable to arbitrary datasets and their validity is verified via experiments. We also introduce several open problems and research directions. We believe these findings inspire the interpretation of transformers as a hierarchy of SVMs that separates and selects optimal tokens.

Link do artigo

https://arxiv.org/abs/2308.16898

RLAIF: expandindo o aprendizado por reforço com feedback humano com feedback de IA / RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback

Apresentação do artigo

O estudo testa se o RLAIF é uma alternativa adequada ao RLHF comparando a eficácia de feedback humano versus feedback de IA; usa diferentes técnicas para gerar rótulos de IA e conduzir estudos de escala a fim de relatar as configurações ideais para gerar preferências alinhadas; a principal conclusão é que, na tarefa de sumarização, avaliadores humanos preferem gerações tanto de RLAIF quanto de RLHF em relação a um modelo SFT de baseline em cerca de 70% dos casos. #rlhf

Tests whether rlaif is a suitable alternative to rlhf by comparing the efficacy of human vs. ai feedback; uses different techniques to generate ai labels and conduct scaling studies to report optimal settings for generating aligned preferences; the main finding is that on the task of summarization, human evaluators prefer generations from both rlaif and rlhf over a baseline sft model in ∼70% of cases.

Resumo do artigo

O aprendizado por reforço a partir de feedback humano (RLHF) é eficaz para alinhar grandes modelos de linguagem (LLMs) às preferências humanas, mas coletar rótulos de preferência humana de alta qualidade é um gargalo importante. Ao comparar diretamente RLHF com RLAIF (RL from AI Feedback), uma técnica em que um LLM pronto rotula preferências no lugar de humanos, confirmou-se que as duas técnicas trazem melhorias semelhantes. Na tarefa de sumarização, avaliadores humanos preferiram as gerações de RLAIF e RLHF ao modelo base ajustado por fine-tuning supervisionado em cerca de 70% dos casos. Além disso, quando solicitados a avaliar resumos de RLAIF versus RLHF, as pessoas preferiram ambos na mesma proporção. Esses resultados sugerem que o RLAIF pode alcançar desempenho em nível humano e oferecer uma solução potencial para as limitações de escalabilidade do RLHF.

Reinforcement learning from human feedback (RLHF) is effective at aligning large language models (LLMs) to human preferences, but gathering high quality human preference labels is a key bottleneck. We conduct a head-to-head comparison of RLHF vs. RL from AI Feedback (RLAIF) - a technique where preferences are labeled by an off-the-shelf LLM in lieu of humans, and we find that they result in similar improvements. On the task of summarization, human evaluators prefer generations from both RLAIF and RLHF over a baseline supervised fine-tuned model in ~70% of cases. Furthermore, when asked to rate RLAIF vs. RLHF summaries, humans prefer both at equal rates. These results suggest that RLAIF can yield human-level performance, offering a potential solution to the scalability limitations of RLHF.

Link do artigo

https://arxiv.org/abs/2309.00267

GPT consegue resolver problemas matemáticos sem uma calculadora / GPT Can Solve Mathematical Problems Without a Calculator

Apresentação do artigo

Mostra que, com dados de treinamento suficientes, um modelo de linguagem 2b pode realizar operações aritméticas com múltiplos dígitos com 100% de precisão e sem vazamento de dados; também é competitivo com o GPT-4 em um conjunto de teste de 5 mil amostras de problemas matemáticos em chinês quando ajustado a partir do GLM-10b em um dataset contendo operações aritméticas adicionais de múltiplas etapas e problemas matemáticos detalhados. #mathematical-reasoning #wizardmath

Shows that with sufficient training data, a 2b language model can perform multi-digit arithmetic operations with 100% accuracy and without data leakage; it’s also competitive with gpt-4 on 5k samples chinese math problem test set when fine-tuned from glm-10b on a dataset containing additional multi-step arithmetic operations and detailed math problems.

Resumo do artigo

Estudos anteriores geralmente presumiam que grandes modelos de linguagem não conseguiam realizar operações aritméticas com precisão sem o uso de ferramentas de calculadora, especialmente multiplicações com mais de 8 dígitos e operações envolvendo decimais e frações. Este artigo busca desafiar esse equívoco. Com dados de treinamento suficientes, um modelo de linguagem com 2 bilhões de parâmetros pode executar com precisão operações aritméticas com vários dígitos com quase 100% de acurácia, sem vazamento de dados, superando de forma significativa o GPT-4, cuja acurácia em multiplicação de vários dígitos é de apenas 4,3%. Também demonstramos que o MathGLM, ajustado a partir do GLM-10B em um dataset com operações aritméticas adicionais de múltiplas etapas e problemas matemáticos descritos em texto, alcança desempenho semelhante ao GPT-4 em um conjunto de teste com 5.000 amostras de problemas matemáticos em chinês.

Previous studies have typically assumed that large language models are unable to accurately perform arithmetic operations, particularly multiplication of >8 digits, and operations involving decimals and fractions, without the use of calculator tools. This paper aims to challenge this misconception. With sufficient training data, a 2 billion-parameter language model can accurately perform multi-digit arithmetic operations with almost 100% accuracy without data leakage, significantly surpassing GPT-4 (whose multi-digit multiplication accuracy is only 4.3%). We also demonstrate that our MathGLM, fine-tuned from GLM-10B on a dataset with additional multi-step arithmetic operations and math problems described in text, achieves similar performance to GPT-4 on a 5,000-samples Chinese math problem test set.

Link do artigo

https://arxiv.org/abs/2309.03241

Grandes modelos de linguagem como otimizadores / Large Language Models as Optimizers

Apresentação do artigo

Uma abordagem em que o problema de otimização é descrito em linguagem natural; em seguida, instrui-se um LLM a gerar iterativamente novas soluções com base no problema definido e nas soluções encontradas anteriormente; em cada etapa de otimização, o objetivo é gerar novos prompts que aumentem a acurácia de teste com base na trajetória dos prompts gerados anteriormente; os prompts otimizados superam prompts projetados por humanos no GSM8K e no BIG-Bench Hard, às vezes em mais de 50%. #optimizing

An approach where the optimization problem is described in natural language; an llm is then instructed to iteratively generate new solutions based on the defined problem and previously found solutions; at each optimization step, the goal is to generate new prompts that increase test accuracy based on the trajectory of previously generated prompts; the optimized prompts outperform human-designed prompts on gsm8k and big-bench hard, sometimes by over 50%

Resumo do artigo

Otimização está em toda parte. Embora algoritmos baseados em derivadas tenham sido ferramentas poderosas para diversos problemas, a ausência de gradiente impõe desafios em muitas aplicações do mundo real. Neste trabalho, os autores propõem o OPRO (Optimization by PROmpting), uma abordagem simples e eficaz para usar grandes modelos de linguagem (LLMs) como otimizadores, em que a tarefa de otimização é descrita em linguagem natural. Em cada etapa de otimização, o LLM gera novas soluções a partir do prompt, que contém soluções geradas anteriormente com seus respectivos valores; em seguida, as novas soluções são avaliadas e adicionadas ao prompt para a próxima etapa de otimização. Primeiro, o OPRO é demonstrado em regressão linear e no problema do caixeiro-viajante, e depois o foco passa para a otimização de prompts, cujo objetivo é encontrar instruções que maximizem a acurácia da tarefa. Com uma variedade de LLMs, os autores demonstram que os melhores prompts otimizados pelo OPRO superam prompts projetados por humanos em até 8% no GSM8K e em até 50% nas tarefas do Big-Bench Hard.

Optimization is ubiquitous. While derivative-based algorithms have been powerful tools for various problems, the absence of gradient imposes challenges on many real-world applications. In this work, we propose Optimization by PROmpting (OPRO), a simple and effective approach to leverage large language models (LLMs) as optimizers, where the optimization task is described in natural language. In each optimization step, the LLM generates new solutions from the prompt that contains previously generated solutions with their values, then the new solutions are evaluated and added to the prompt for the next optimization step. We first showcase OPRO on linear regression and traveling salesman problems, then move on to prompt optimization where the goal is to find instructions that maximize the task accuracy. With a variety of LLMs, we demonstrate that the best prompts optimized by OPRO outperform human-designed prompts by up to 8% on GSM8K, and by up to 50% on Big-Bench Hard tasks.

Link do artigo

https://arxiv.org/abs/2309.03409

ImageBind-LLM: ajuste fino de instruções multimodais / ImageBind-LLM: Multi-modality Instruction Tuning

Apresentação do artigo

É apresentado o imagebind-llm, um método de ajuste fino de instruções multimodais para llms por meio do ImageBind. Esse modelo pode responder a instruções de diversas modalidades, como áudio, nuvens de pontos 3D e vídeo, incluindo alta qualidade de geração de linguagem; isso é alcançado ao alinhar o codificador visual do ImageBind com um llm por meio de uma rede de ligação treinável. #imagebind

Presents imagebind-llm, a multimodality instruction tuning method of llms via imagebind; this model can respond to instructions of diverse modalities such as audio, 3d point clouds, and video, including high language generation quality; this is achieved by aligning imagebind’s visual encoder with an llm via learnable bind network.

Resumo do artigo

Apresentamos o ImageBind-LLM, um método de instruction tuning multimodal para grandes modelos de linguagem (LLMs) via ImageBind. Enquanto trabalhos anteriores se concentravam principalmente em instruction tuning de linguagem e imagem, o ImageBind-LLM pode responder a condições multimodais, incluindo áudio, nuvens de pontos 3D, vídeo e operações no espaço de embeddings, usando apenas treinamento de alinhamento imagem-texto. Durante o treinamento, ele adota uma bind network treinável para alinhar o espaço de embeddings entre o LLaMA e o codificador de imagens do ImageBind. Em seguida, as características de imagem transformadas pela bind network são adicionadas aos tokens de palavra em todas as camadas do LLaMA, injetando gradualmente instruções visuais por meio de um mecanismo de gating sem atenção e inicializado em zero. Com a ajuda do embedding conjunto do ImageBind, um treinamento simples de imagem-texto permite que o modelo apresente excelente capacidade de seguir instruções multimodais. Durante a inferência, as entradas multimodais são enviadas aos codificadores correspondentes do ImageBind e processadas por um modelo de cache visual proposto para aprimoramento adicional de embeddings cross-modal. O modelo de cache, que não requer treinamento, recupera informações de 3 milhões de características de imagem extraídas pelo ImageBind, mitigando de forma eficaz a discrepância de modalidade entre treinamento e inferência. Em particular, com essa abordagem, o ImageBind-LLM pode responder a instruções de diversos formatos e demonstrar qualidade significativa de geração de linguagem. O código está disponível em https://github.com/OpenGVLab/LLaMA-Adapter.

We present ImageBind-LLM, a multi-modality instruction tuning method of large language models (LLMs) via ImageBind. Existing works mainly focus on language and image instruction tuning, different from which, our ImageBind-LLM can respond to multi-modality conditions, including audio, 3D point clouds, video, and their embedding-space arithmetic by only image-text alignment training. During training, we adopt a learnable bind network to align the embedding space between LLaMA and ImageBind's image encoder. Then, the image features transformed by the bind network are added to word tokens of all layers in LLaMA, which progressively injects visual instructions via an attention-free and zero-initialized gating mechanism. Aided by the joint embedding of ImageBind, the simple image-text training enables our model to exhibit superior multi-modality instruction-following capabilities. During inference, the multi-modality inputs are fed into the corresponding ImageBind encoders, and processed by a proposed visual cache model for further cross-modal embedding enhancement. The training-free cache model retrieves from three million image features extracted by ImageBind, which effectively mitigates the training-inference modality discrepancy. Notably, with our approach, ImageBind-LLM can respond to instructions of diverse modalities and demonstrate significant language generation quality. Code is released at https://github.com/OpenGVLab/LLaMA-Adapter.

Link do artigo

https://arxiv.org/abs/2309.03905

Explicando o grokking por meio da eficiência de circuitos / Explaining grokking through circuit efficiency

Apresentação do artigo

O trabalho busca explicar o comportamento de grokking em redes neurais e, em particular, prevê e demonstra dois novos comportamentos. O primeiro é o ungrokking, em que um modelo passa de generalização perfeita para memorização quando continua sendo treinado em um conjunto de dados menor que o limiar crítico; o segundo é o semi-grokking, em que uma rede mostra uma transição semelhante ao grokking ao treinar uma rede inicializada aleatoriamente no tamanho crítico do conjunto de dados. #grokking

Aims to explain grokking behavior in neural networks; specifically, it predicts and shows two novel behaviors: the first is ungrokking where a model goes from perfect generalization to memorization when trained further on a smaller dataset than the critical threshold; the second is semi-grokking where a network demonstrates grokking-like transition when training a randomly initialized network on the critical dataset size.

Resumo do artigo

Um dos quebra-cabeças mais surpreendentes da generalização em redes neurais é o grokking: uma rede com acurácia de treino perfeita, mas baixa capacidade de generalização, passa para uma generalização perfeita com treinamento adicional. Propomos que o grokking ocorre quando a tarefa admite uma solução de generalização e uma solução de memorização, em que a solução de generalização é mais lenta para aprender, porém mais eficiente, produzindo logits maiores com a mesma norma dos parâmetros. Levantamos a hipótese de que circuitos de memorização se tornam mais ineficientes à medida que o conjunto de dados de treinamento cresce, enquanto circuitos de generalização não, sugerindo que existe um tamanho crítico de conjunto de dados em que memorização e generalização são igualmente eficientes. Fizemos quatro novas previsões sobre grokking e, ao confirmá-las, apresentamos evidências importantes a favor da nossa explicação. O mais impressionante é que demonstramos dois comportamentos novos e surpreendentes: ungrokking, em que uma rede regride de acurácia de teste perfeita para baixa acurácia de teste, e semi-grokking, em que uma rede apresenta generalização tardia para uma acurácia de teste parcial, em vez de perfeita.

One of the most surprising puzzles in neural network generalisation is grokking: a network with perfect training accuracy but poor generalisation will, upon further training, transition to perfect generalisation. We propose that grokking occurs when the task admits a generalising solution and a memorising solution, where the generalising solution is slower to learn but more efficient, producing larger logits with the same parameter norm. We hypothesise that memorising circuits become more inefficient with larger training datasets while generalising circuits do not, suggesting there is a critical dataset size at which memorisation and generalisation are equally efficient. We make and confirm four novel predictions about grokking, providing significant evidence in favour of our explanation. Most strikingly, we demonstrate two novel and surprising behaviours: ungrokking, in which a network regresses from perfect to low test accuracy, and semi-grokking, in which a network shows delayed generalisation to partial rather than perfect test accuracy.

Link do artigo

https://arxiv.org/abs/2309.02390

Engano por IA: uma pesquisa sobre exemplos, riscos e possíveis soluções / AI Deception: A Survey of Examples, Risks, and Potential Solutions

Introdução ao artigo

Fornece uma pesquisa de casos empíricos de engano por IA. #survey paper

Provides a survey of empirical examples of ai deception.

Resumo do artigo

Este artigo argumenta que uma variedade de sistemas de inteligência artificial atuais aprendeu a enganar humanos. Definimos engano como a indução sistemática de crenças falsas na busca de algum resultado diferente da verdade. Primeiro, analisamos casos empíricos de engano por IA, discutindo tanto sistemas de IA de uso específico (incluindo o CICERO, da Meta), construídos para situações competitivas específicas, quanto sistemas de IA de uso geral (como grandes modelos de linguagem). Em seguida, detalhamos vários riscos do engano por IA, como fraude, manipulação eleitoral e perda de controle sobre sistemas de IA. Por fim, descrevemos brevemente algumas soluções potenciais para os problemas colocados pelo engano por IA. Primeiro, estruturas regulatórias devem submeter sistemas de IA capazes de enganar a requisitos robustos de avaliação de risco; segundo, formuladores de políticas devem implementar leis de bot-or-not; e, por fim, formuladores de políticas devem priorizar o financiamento de pesquisas relevantes, incluindo ferramentas para detectar engano por IA e tornar os sistemas de IA menos enganosos. Formuladores de políticas, pesquisadores e o público em geral devem agir de forma proativa para evitar que o engano por IA desestabilize as bases compartilhadas da nossa sociedade.

This paper argues that a range of current AI systems have learned how to deceive humans. We define deception as the systematic inducement of false beliefs in the pursuit of some outcome other than the truth. We first survey empirical examples of AI deception, discussing both special-use AI systems (including Meta's CICERO) built for specific competitive situations, and general-purpose AI systems (such as large language models). Next, we detail several risks from AI deception, such as fraud, election tampering, and losing control of AI systems. Finally, we outline several potential solutions to the problems posed by AI deception: first, regulatory frameworks should subject AI systems that are capable of deception to robust risk-assessment requirements; second, policymakers should implement bot-or-not laws; and finally, policymakers should prioritize the funding of relevant research, including tools to detect AI deception and to make AI systems less deceptive. Policymakers, researchers, and the broader public should work proactively to prevent AI deception from destabilizing the shared foundations of our society.

Link do artigo

https://arxiv.org/abs/2308.14752

FLM-101B: um LLM aberto e como treiná-lo com um orçamento de US$ 100 mil / FLM-101B: An Open LLM and How to Train It with $100K Budget

Introdução ao artigo

No caso do FLM-101B, um novo LLM aberto com 101 bilhões de parâmetros e 0,31 TB de tokens que pode ser treinado com um orçamento de 100 mil dólares, os autores analisam diversas estratégias de crescimento e usam uma estratégia agressiva que aumenta o número de parâmetros de tamanhos menores para maiores, reduzindo no fim os custos em mais de 50%. Em outras palavras, três modelos são treinados sequencialmente, com cada modelo herdando o conhecimento de seu predecessor menor (16b -> 51b -> 101b) enquanto alcança desempenho competitivo.

A new open llm called flm-101b with 101b parameters and 0.31tb tokens which can be trained on a $100k budget; the authors analyze different growth strategies, growing the number of parameters from smaller sizes to large ones. they ultimately employ an aggressive strategy that reduces costs by >50%. in other words, three models are trained sequentially with each model inheriting knowledge from its smaller predecessor (16b -> 51b -> 101b) while achieving competitive performance.

Resumo do artigo

Os grandes modelos de linguagem (LLMs) alcançaram sucesso notável em NLP e tarefas multimodais. Apesar desses sucessos, o desenvolvimento de grandes modelos de linguagem enfrenta dois desafios principais: (i) alto custo computacional e (ii) dificuldade em realizar avaliações justas e objetivas. Como os LLMs são extremamente caros, apenas algumas grandes empresas conseguem treiná-los, o que limita tanto as oportunidades de pesquisa quanto as de aplicação. Isso destaca a importância do treinamento de LLMs com eficiência de custos. Neste artigo, os autores utilizam uma estratégia de crescimento para reduzir significativamente o custo de treinamento de LLMs. Eles demonstram que é possível treinar um LLM com 101 bilhões de parâmetros e 0,31 TB de tokens com um orçamento de 100 mil dólares. Além disso, para complementar avaliações existentes que focam mais em capacidades orientadas ao conhecimento, eles adotam um paradigma sistemático de avaliação de QI para LLMs. Eles introduzem um benchmark que inclui avaliações de aspectos importantes da inteligência, como mapeamento simbólico, compreensão de regras, mineração de padrões e anti-interferência. Essas avaliações minimizam o impacto potencial da memorização. Os resultados experimentais mostram que o modelo FLM-101B, treinado com um orçamento de 100 mil dólares, alcança desempenho comparável ao de modelos poderosos e bem conhecidos, como GPT-3 e GLM-130B, especialmente nas avaliações do benchmark de QI com contextos não vistos nos dados de treinamento. O checkpoint do FLM-101B será disponibilizado como open source em https://huggingface.co/CofeAI/FLM-101B.

Large language models (LLMs) have achieved remarkable success in NLP and multimodal tasks. Despite these successes, their development faces two main challenges: (i) high computational cost; and (ii) difficulty in conducting fair and objective evaluations. LLMs are prohibitively expensive, making it feasible for only a few major players to undertake their training, thereby constraining both research and application opportunities. This underscores the importance of cost-effective LLM training. In this paper, we utilize a growth strategy to significantly reduce LLM training cost. We demonstrate that an LLM with 101B parameters and 0.31TB tokens can be trained on a $100K budget. We also adopt a systematic evaluation paradigm for the IQ evaluation of LLMs, in complement to existing evaluations that focus more on knowledge-oriented abilities. We introduce our benchmark including evaluations on important aspects of intelligence including symbolic mapping, itrule understanding, pattern mining, and anti-interference. Such evaluations minimize the potential impact of memorization. Experimental results show that our model FLM-101B, trained with a budget of $100K, achieves comparable performance to powerful and well-known models, eg GPT-3 and GLM-130B, especially in the IQ benchmark evaluations with contexts unseen in training data. The checkpoint of FLM-101B will be open-sourced at https://huggingface.co/CofeAI/FLM-101B.

Link do artigo

https://arxiv.org/abs/2309.03852

Arquiteturas cognitivas para agentes de linguagem / Cognitive Architectures for Language Agents

Apresentação do artigo

Propõe um framework sistemático para entender e construir agentes de linguagem completos, traçando paralelos com sistemas de produção e arquiteturas cognitivas; no framework, ele sistematiza diversos métodos para raciocínio, grounding, aprendizado e tomada de decisão baseados em linguagem como instâncias de agentes de linguagem.

Proposes a systematic framework for understanding and building fully-fledged language agents drawing parallels from production systems and cognitive architectures; it systematizes diverse methods for llm-based reasoning, grounding, learning, and decision making as instantiations of language agents in the framework.

Resumo do artigo

Esforços recentes têm integrado grandes modelos de linguagem (LLMs) com recursos externos (por exemplo, a internet) ou fluxos internos de controle (por exemplo, encadeamento de prompts) para tarefas que exigem grounding ou raciocínio. No entanto, esses esforços têm sido em grande parte fragmentados, sem uma estrutura sistemática para construir um agente de linguagem completo. Para enfrentar esse desafio, recorremos à rica história do design de agentes na inteligência artificial simbólica para desenvolver um plano para uma nova geração de agentes cognitivos de linguagem. Primeiro, mostramos que os LLMs têm muitas das mesmas propriedades dos sistemas de produção, e que os esforços recentes para melhorar seu grounding ou raciocínio refletem o desenvolvimento de arquiteturas cognitivas construídas em torno de sistemas de produção. Em seguida, propomos Cognitive Architectures for Language Agents (CoALA), uma estrutura conceitual para sistematizar diversos métodos de raciocínio, grounding, aprendizado e tomada de decisão baseados em LLM como instanciações de agentes de linguagem dentro dessa estrutura. Por fim, usamos a estrutura CoALA para destacar lacunas e propor direções práticas rumo a agentes de linguagem mais capazes no futuro.

Recent efforts have incorporated large language models (LLMs) with external resources (e.g., the Internet) or internal control flows (e.g., prompt chaining) for tasks requiring grounding or reasoning. However, these efforts have largely been piecemeal, lacking a systematic framework for constructing a fully-fledged language agent. To address this challenge, we draw on the rich history of agent design in symbolic artificial intelligence to develop a blueprint for a new wave of cognitive language agents. We first show that LLMs have many of the same properties as production systems, and recent efforts to improve their grounding or reasoning mirror the development of cognitive architectures built around production systems. We then propose Cognitive Architectures for Language Agents (CoALA), a conceptual framework to systematize diverse methods for LLM-based reasoning, grounding, learning, and decision making as instantiations of language agents in the framework. Finally, we use the CoALA framework to highlight gaps and propose actionable directions toward more capable language agents in the future.

Link do artigo

https://arxiv.org/abs/2309.02427

Q-Transformer

Introdução ao artigo

Um método de RL escalável para treinar políticas multitarefa a partir de grandes conjuntos de dados offline, aproveitando demonstrações humanas e dados coletados autonomamente; mostra bom desempenho em um grande e diverso conjunto de tarefas reais de manipulação robótica.

A scalable rl method for training multi-task policies from large offline datasets leveraging human demonstrations and autonomously collected data; shows good performance on a large diverse real-world robotic manipulation task suite.

Link do artigo

https://q-transformer.github.io/

Texto original

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-b88

Este texto é uma descrição resumida automaticamente por um modelo GPT e pode conter informações incorretas; consulte o texto original!
Se, durante a leitura, você encontrar algum trecho estranho ou incorreto, pedimos que nos avise nos comentários!

[2023/09/04 ~ 09/10] Principais artigos de ML da semana (Top ML Papers of the Week)

Visão geral

Transformers como máquinas de vetores de suporte / Transformers as Support Vector Machines

Apresentação do artigo

Resumo do artigo

Link do artigo

RLAIF: expandindo o aprendizado por reforço com feedback humano com feedback de IA / RLAIF: Scaling Reinforcement Learning from Human Feedback with AI Feedback

Apresentação do artigo

Resumo do artigo

Link do artigo

Leia mais

GPT consegue resolver problemas matemáticos sem uma calculadora / GPT Can Solve Mathematical Problems Without a Calculator

Apresentação do artigo

Resumo do artigo

Link do artigo

Leia mais

Grandes modelos de linguagem como otimizadores / Large Language Models as Optimizers

Apresentação do artigo

Resumo do artigo

Link do artigo

Leia mais

ImageBind-LLM: ajuste fino de instruções multimodais / ImageBind-LLM: Multi-modality Instruction Tuning

Apresentação do artigo

Resumo do artigo

Link do artigo

Leia mais

Explicando o grokking por meio da eficiência de circuitos / Explaining grokking through circuit efficiency

Apresentação do artigo

Resumo do artigo

Link do artigo

Leia mais

Engano por IA: uma pesquisa sobre exemplos, riscos e possíveis soluções / AI Deception: A Survey of Examples, Risks, and Potential Solutions

Introdução ao artigo

Resumo do artigo

Link do artigo

Leia mais

FLM-101B: um LLM aberto e como treiná-lo com um orçamento de US$ 100 mil / FLM-101B: An Open LLM and How to Train It with $100K Budget

Introdução ao artigo

Resumo do artigo

Link do artigo

Leia mais

Arquiteturas cognitivas para agentes de linguagem / Cognitive Architectures for Language Agents

Apresentação do artigo

Resumo do artigo

Link do artigo

Leia mais

Q-Transformer

Introdução ao artigo

Link do artigo

Leia mais

Texto original

Leituras relacionadas

Ainda não há comentários.