3 pontos por ninebow 2024-06-13 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Fizemos uma tradução automática dos textos sobre artigos de ML publicados semanalmente pela DAIR.AI.

  • Ao observar os artigos selecionados nesta semana, nota-se que a maioria está focada em modelos de linguagem de grande porte (LLMs). Mais especificamente, eles podem ser resumidos como pesquisas sobre extração de conceitos em modelos de linguagem de grande porte (Extracting Concepts from GPT-4), aumento de eficiência (MatMul-free LLMs), compreensão do processo de raciocínio do modelo (Buffer of Thoughts), estrutura geométrica dos LLMs (The Geometry of Concepts in LLMs) e alinhamento desses modelos (Aligning LLMs with Demonstrated Feedback, Towards Scalable Automated Alignment of LLMs). Esses temas refletem os interesses atuais em explorar a compreensão, a melhoria e as possibilidades de aplicação dos LLMs no campo da inteligência artificial. Embora não tenhamos analisado em detalhe o conteúdo de todos os artigos, os títulos por si só já parecem suficientes para identificar as tendências recentes de pesquisa.

  • Essa tendência pode ser explicada por alguns motivos. Em primeiro lugar, após o sucesso de modelos de linguagem de grande porte como o GPT-4, o interesse por esses modelos aumentou rapidamente na área de pesquisa em inteligência artificial. Esses modelos vêm desempenhando um papel importante não apenas no processamento de linguagem natural (NLP), mas também na obtenção de desempenho em nível humano em diversas tarefas baseadas em conhecimento. Em segundo lugar, compreender e desenvolver LLMs oferece oportunidades para criar sistemas de IA capazes de executar tarefas mais complexas e criativas. Por fim, esse tipo de pesquisa pode contribuir para o avanço de tecnologias que permitam entender e controlar o comportamento dos modelos, algo essencial para reforçar a segurança e o uso ético da IA. Como resultado, os artigos selecionados nesta semana refletem as pesquisas e os experimentos que estão acontecendo na linha de frente do avanço da tecnologia de IA, especialmente dos modelos de linguagem de grande porte.


NLLB: Expandindo a tradução automática neural para 200 idiomas / Scaling neural machine translation to 200 languages

Introdução ao artigo

Propõe um modelo multilíngue massivo que aproveita o aprendizado por transferência em 200 idiomas; ele é baseado em uma arquitetura de mistura de especialistas com roteamento esparso e treinado com dados obtidos por uma abordagem adaptada a idiomas com poucos recursos; avalia 40 mil traduções e alcança uma melhora média de 44% na qualidade da tradução.
> Proposes a massive multilingual model that leverages transfer learning across 200 languages; it’s based on a sparsely Gated Mixture of Experts architecture and trained on data via an approach tailored for low-resource languages; evaluates on 40K translations and achieves an average of 44% improvement in translation quality.

Resumo do artigo (Abstract)

O avanço das técnicas neurais abriu novos caminhos para a pesquisa em tradução automática. Hoje, os sistemas de tradução automática neural (NMT) conseguem aproveitar capacidades altamente multilíngues e até realizar tradução zero-shot, entregando resultados promissores em termos de cobertura de idiomas e qualidade. No entanto, escalar NMT de qualidade exige grandes volumes de dados bilíngues paralelos, que não estão igualmente disponíveis para os mais de 7.000 idiomas do mundo. Focar em melhorar a qualidade da tradução de um grupo relativamente pequeno de idiomas com muitos recursos acaba desviando a atenção da pesquisa dos idiomas com poucos recursos, agravando as desigualdades digitais no longo prazo. Para romper esse padrão, apresentamos aqui o No Language Left Behind (NLLB), um único modelo massivamente multilíngue que aproveita o aprendizado por transferência entre idiomas. Desenvolvemos um modelo de computação condicional baseado na arquitetura Sparsely Gated Mixture of Experts, treinado com dados obtidos por novas técnicas de mineração adaptadas a idiomas com poucos recursos. Além disso, criamos várias melhorias de arquitetura e treinamento para combater o overfitting durante o treinamento em milhares de tarefas. Avaliamos o desempenho do nosso modelo em mais de 40.000 direções de tradução usando ferramentas criadas especificamente para esse fim: um benchmark automático (FLORES-200), uma métrica de avaliação humana (XSTS) e um detector de toxicidade que cobre todos os idiomas do nosso modelo. Em comparação com os modelos anteriores de estado da arte, nosso modelo alcança uma melhora média de 44% na qualidade da tradução, medida por BLEU. Ao demonstrar como escalar NMT para 200 idiomas e disponibilizar gratuitamente todas as contribuições desse esforço para uso não comercial, nosso trabalho estabelece uma base importante para o desenvolvimento de um sistema universal de tradução.
> The development of neural techniques has opened up new avenues for research in machine translation. Today, neural machine translation (NMT) systems can leverage highly multilingual capacities and even perform zero-shot translation, delivering promising results in terms of language coverage and quality. However, scaling quality NMT requires large volumes of parallel bilingual data, which are not equally available for the 7,000+ languages in the world. Focusing on improving the translation qualities of a relatively small group of high-resource languages comes at the expense of directing research attention to low-resource languages, exacerbating digital inequities in the long run. To break this pattern, here we introduce No Language Left Behind—a single massively multilingual model that leverages transfer learning across languages. We developed a conditional computational model based on the Sparsely Gated Mixture of Experts architecture, which we trained on data obtained with new mining techniques tailored for low-resource languages. Furthermore, we devised multiple architectural and training improvements to counteract overfitting while training on thousands of tasks. We evaluated the performance of our model over 40,000 translation directions using tools created specifically for this purpose—an automatic benchmark (FLORES-200), a human evaluation metric (XSTS) and a toxicity detector that covers every language in our model. Compared with the previous state-of-the-art models, our model achieves an average of 44% improvement in translation quality as measured by BLEU. By demonstrating how to scale NMT to 200 languages and making all contributions in this effort freely available for non-commercial use, our work lays important groundwork for the development of a universal translation system.

Link do artigo

https://www.nature.com/articles/s41586-024-07335-x

Leia mais

https://github.com/facebookresearch/fairseq/tree/nllb

https://x.com/AIatMeta/status/1798420492774432769


Extraindo conceitos do GPT-4 / Extracting Concepts from GPT-4

Introdução à pesquisa

Propõe um novo método escalável baseado em autoencoders esparsos para extrair cerca de 16 milhões de padrões interpretáveis do GPT-4. O método demonstra escalabilidade previsível e é mais eficiente do que técnicas anteriores.
> Proposes a new scalable method based on sparse autoencoders to extract around 16 million interpretable patterns from GPT-4; the method demonstrates predictable scaling and is more efficient than previous techniques.

Resumo do artigo

SAEs (Sparse AutoEncoders, autoencoders esparsos) oferecem uma abordagem não supervisionada promissora para extrair características interpretáveis de modelos de linguagem ao reconstruir ativações a partir de uma camada de gargalo esparsa. Como modelos de linguagem aprendem muitos conceitos, os autoencoders precisam ser muito grandes para recuperar todas as características relevantes. No entanto, estudar as propriedades de escalonamento de autoencoders é difícil devido à necessidade de equilibrar os objetivos de reconstrução e esparsidade, além da presença de latentes mortos. Propomos o uso de autoencoders k-sparse [Makhzani and Frey, 2013] para controlar diretamente a esparsidade, simplificando o ajuste fino e melhorando a fronteira entre reconstrução e esparsidade. Além disso, encontramos modificações que resultam em poucos latentes mortos, mesmo nas maiores escalas que testamos. Usando essas técnicas, encontramos leis de escalonamento bem definidas em relação ao tamanho do autoencoder e à esparsidade. Também introduzimos várias novas métricas para avaliar a qualidade das características com base na recuperação de características hipotetizadas, na explicabilidade dos padrões de ativação e na esparsidade dos efeitos downstream. Todas essas métricas geralmente melhoram com o aumento do tamanho do autoencoder. Para demonstrar a escalabilidade da nossa abordagem, treinamos um autoencoder com 16 milhões de latentes sobre ativações do GPT-4 em 40 bilhões de tokens. Disponibilizamos código, autoencoders para modelos open source e também um visualizador.
> Sparse autoencoders provide a promising unsupervised approach for extracting interpretable features from a language model by reconstructing activations from a sparse bottleneck layer. Since language models learn many concepts, autoencoders need to be very large to recover all relevant features. However, studying the properties of autoencoder scaling is difficult due to the need to balance reconstruction and sparsity objectives and the presence of dead latents. We propose using k-sparse autoencoders [Makhzani and Frey, 2013] to directly control sparsity, simplifying tuning and improving the reconstruction-sparsity frontier. Additionally, we find modifications that result in few dead latents, even at the largest scales we tried. Using these techniques, we find clean scaling laws with respect to autoencoder size and sparsity. We also introduce several new metrics for evaluating feature quality based on the recovery of hypothesized features, the explainability of activation patterns, and the sparsity of downstream effects. These metrics all generally improve with autoencoder size. To demonstrate the scalability of our approach, we train a 16 million latent autoencoder on GPT-4 activations for 40 billion tokens. We release code and autoencoders for open-source models, as well as a visualizer.

Links da pesquisa e do artigo

https://openai.com/index/extracting-concepts-from-gpt-4/

https://cdn.openai.com/papers/sparse-autoencoders.pdf

Leia mais

https://github.com/openai/sparse_autoencoder

https://openaipublic.blob.core.windows.net/sparse-autoencoder/…

https://x.com/OpenAI/status/1798762092528586945


Transformers são SSMs: modelos generalizados e algoritmos eficientes por meio da dualidade de espaço de estados estruturado / Transformers are SSMs: Generalized Models and Efficient Algorithms Through Structured State Space Duality

Introdução ao artigo

Uma nova arquitetura que combina modelos de espaço de estados (SSMs) e atenção estruturada usa estados 8 vezes maiores e treina 50% mais rápido. A nova camada de dualidade de espaço de estados é mais eficiente e escalável em comparação com a abordagem usada no Mamba, além de melhorar os resultados em tarefas que exigem grande capacidade de estado.
> A new architecture that combines state space models (SSMs) and structured attention; it uses 8x larger states and trains 50% faster; the new state space duality layer is more efficient and scalable compared to the approach used in Mamba; it also improves results on tasks that require large state capacity.

Resumo do artigo (Abstract)

Os Transformers foram a principal arquitetura por trás do sucesso do deep learning em modelagem de linguagem, mas, recentemente, modelos de espaço de estados (SSMs) como o Mamba demonstraram desempenho equivalente ou superior ao dos Transformers em pequena e média escala. Mostramos que essas famílias de modelos são, na verdade, bastante relacionadas entre si e desenvolvemos um rico arcabouço de conexões teóricas entre SSMs e variantes de atenção, conectadas por meio de várias decomposições de uma classe bem estudada de matrizes semisseparáveis estruturadas. Nosso framework de dualidade de espaço de estados (SSD) nos permite projetar uma nova arquitetura (Mamba-2) cuja camada central é um refinamento do SSM seletivo do Mamba, sendo de 2 a 8 vezes mais rápida, ao mesmo tempo em que continua competitiva com Transformers em modelagem de linguagem.
> While Transformers have been the main architecture behind deep learning's success in language modeling, state-space models (SSMs) such as Mamba have recently been shown to match or outperform Transformers at small to medium scale. We show that these families of models are actually quite closely related, and develop a rich framework of theoretical connections between SSMs and variants of attention, connected through various decompositions of a well-studied class of structured semiseparable matrices. Our state space duality (SSD) framework allows us to design a new architecture (Mamba-2) whose core layer is an a refinement of Mamba's selective SSM that is 2-8X faster, while continuing to be competitive with Transformers on language modeling.

Link do artigo

https://arxiv.org/abs/2405.21060

Leia mais

https://x.com/_albertgu/status/1797651223035904355


Modelagem de linguagem escalável sem multiplicação de matrizes (MatMul) / Scalable MatMul-free Language Modeling

Introdução do artigo

Propõe uma implementação que elimina as operações de multiplicação de matrizes em LLMs, mantendo o desempenho na escala de bilhões de parâmetros, e afirma que, à medida que o tamanho do modelo cresce, a diferença de desempenho entre Transformers de precisão total e modelos sem MatMul diminui, enquanto o uso de kernels otimizados durante a inferência reduz o consumo de memória em mais de 10 vezes.

Proposes an implementation that eliminates matrix multiplication operations from LLMs while maintaining performance at billion-parameter scales; the performance between full precision Transformers and the MatMul-free models narrows as the model size increases; claims that by using an optimized kernel during inference, memory consumption is reduced by more than 10x.

Resumo do artigo (Abstract)

Em geral, a multiplicação de matrizes (MatMul) domina o custo computacional total dos grandes modelos de linguagem (LLMs). Esse custo só aumenta à medida que os LLMs escalam para dimensões de embedding e comprimentos de contexto maiores. Neste trabalho, mostramos que as operações MatMul podem ser completamente eliminadas dos LLMs, mantendo um desempenho forte na escala de bilhões de parâmetros. Nossos experimentos mostram que os modelos sem MatMul que propomos alcançam desempenho equivalente ao dos Transformers estado da arte, que exigem muito mais memória durante a inferência, em escalas de pelo menos 2,7 bilhões de parâmetros. Ao investigar as leis de escala, constatamos que a diferença de desempenho entre nossos modelos MatMul-free e Transformers de precisão total diminui conforme o tamanho do modelo aumenta. Também fornecemos uma implementação eficiente para GPU desse modelo, que reduz o uso de memória em até 61% durante o treinamento em comparação com uma linha de base não otimizada. Ao utilizar um kernel otimizado durante a inferência, o consumo de memória do modelo pode ser reduzido em mais de 10 vezes em comparação com modelos não otimizados. Para quantificar adequadamente a eficiência da arquitetura, construímos uma solução de hardware personalizada em FPGA que explora operações leves além do que as GPUs são capazes de fazer. Processamos modelos na escala de bilhões de parâmetros com 13W, acima da taxa de processamento legível por humanos, aproximando os LLMs de uma eficiência semelhante à do cérebro. Este trabalho não apenas mostra até que ponto os LLMs podem ser enxugados sem perder eficácia, mas também aponta os tipos de operações para os quais futuros aceleradores devem ser otimizados ao processar a próxima geração de LLMs leves. A implementação do código está disponível em \url{https://github.com/ridgerchu/matmulfreellm}.

Matrix multiplication (MatMul) typically dominates the overall computational cost of large language models (LLMs). This cost only grows as LLMs scale to larger embedding dimensions and context lengths. In this work, we show that MatMul operations can be completely eliminated from LLMs while maintaining strong performance at billion-parameter scales. Our experiments show that our proposed MatMul-free models achieve performance on-par with state-of-the-art Transformers that require far more memory during inference at a scale up to at least 2.7B parameters. We investigate the scaling laws and find that the performance gap between our MatMul-free models and full precision Transformers narrows as the model size increases. We also provide a GPU-efficient implementation of this model which reduces memory usage by up to 61% over an unoptimized baseline during training. By utilizing an optimized kernel during inference, our model's memory consumption can be reduced by more than 10x compared to unoptimized models. To properly quantify the efficiency of our architecture, we build a custom hardware solution on an FPGA which exploits lightweight operations beyond what GPUs are capable of. We processed billion-parameter scale models at 13W beyond human readable throughput, moving LLMs closer to brain-like efficiency. This work not only shows how far LLMs can be stripped back while still performing effectively, but also points at the types of operations future accelerators should be optimized for in processing the next generation of lightweight LLMs. Our code implementation is available at \url{https://github.com/ridgerchu/matmulfreellm}.

Link do artigo

https://arxiv.org/abs/2406.02528

Leia mais

https://github.com/ridgerchu/matmulfreellm

https://x.com/omarsar0/status/1798373841741185261


Buffer de Pensamentos: raciocínio aumentado por pensamento com grandes modelos de linguagem / Buffer of Thoughts: Thought-Augmented Reasoning with Large Language Models

Introdução do artigo

Apresenta uma abordagem de raciocínio aumentado por pensamento para melhorar a precisão, eficiência e robustez do raciocínio baseado em LLMs. Ela aproveita um meta-buffer que contém pensamentos de alto nível (templates de pensamento) destilados de processos de resolução de problemas, recupera o template de pensamento relevante e depois o instancia com estruturas de raciocínio específicas da tarefa para o processo de raciocínio aumentado por pensamento. Demonstrou desempenho SOTA em 10 tarefas desafiadoras com apenas 12% do custo de métodos de prompting com múltiplas consultas, como Tree-of-Thoughts.

Presents a thought-augmented reasoning approach to enhance the accuracy, efficiency, and robustness of LLM-based reasoning; it leverages a meta-buffer containing high-level thoughts (thought templates) distilled from problem-solving processes; the relevant thought template is then retrieved and instantiated with task-specific reasoning structures for the thought-augmented reasoning process; it demonstrates SOTA performance on 10 challenging tasks while requiring 12% of the cost of multi-query prompting methods like Tree-of-Thoughts.

Resumo do artigo (Abstract)

Apresentamos o Buffer of Thoughts (BoT), uma nova e versátil abordagem de raciocínio com aumento de pensamento para melhorar a precisão, a eficiência e a robustez de grandes modelos de linguagem (LLMs). Especificamente, propomos um meta-buffer para armazenar uma série de pensamentos informativos de alto nível, chamados de templates de pensamento, destilados dos processos de resolução de problemas em várias tarefas. Em seguida, para cada problema, recuperamos um template de pensamento relevante e o instanciamos de forma adaptativa com estruturas de raciocínio específicas para realizar um raciocínio eficiente. Além disso, para garantir escalabilidade e estabilidade, propomos um gerenciador de buffer para atualizar dinamicamente o meta-buffer, aumentando assim sua capacidade à medida que mais tarefas são resolvidas. Após conduzir experimentos extensivos em 10 tarefas desafiadoras e intensivas em raciocínio, alcançamos melhorias significativas de desempenho em relação aos métodos SOTA anteriores: 11% no Game of 24, 20% em Geometric Shapes e 51% em Checkmate-in-One. Análises adicionais demonstram a capacidade superior de generalização e a robustez do modelo do nosso BoT, exigindo em média apenas 12% do custo de métodos de prompting com múltiplas consultas (por exemplo, tree/graph of thoughts). Notavelmente, descobrimos que nosso Llama3-8B+BoT tem potencial para superar o modelo Llama3-70B. O projeto está disponível no link a seguir: https://github.com/YangLing0818/buffer-of-thought-llm
> We introduce Buffer of Thoughts (BoT), a novel and versatile thought-augmented reasoning approach for enhancing accuracy, efficiency and robustness of large language models (LLMs). Specifically, we propose meta-buffer to store a series of informative high-level thoughts, namely thought-template, distilled from the problem-solving processes across various tasks. Then for each problem, we retrieve a relevant thought-template and adaptively instantiate it with specific reasoning structures to conduct efficient reasoning. To guarantee the scalability and stability, we further propose buffer-manager to dynamically update the meta-buffer, thus enhancing the capacity of meta-buffer as more tasks are solved. We conduct extensive experiments on 10 challenging reasoning-intensive tasks, and achieve significant performance improvements over previous SOTA methods: 11% on Game of 24, 20% on Geometric Shapes and 51% on Checkmate-in-One. Further analysis demonstrate the superior generalization ability and model robustness of our BoT, while requiring only 12% of the cost of multi-query prompting methods (e.g., tree/graph of thoughts) on average. Notably, we find that our Llama3-8B+BoT has the potential to surpass Llama3-70B model. Our project is available at: https://github.com/YangLing0818/buffer-of-thought-llm

Link do artigo

https://arxiv.org/abs/2406.04271

Leia mais

https://github.com/YangLing0818/buffer-of-thought-llm

https://x.com/omarsar0/status/1799113545696567416


SaySelf: Treinando LLMs para expressar confiança com justificativas autorreflexivas / SaySelf: Teaching LLMs to Express Confidence with Self-Reflective Rationales

Introdução ao artigo

Um framework de treinamento para ensinar LLMs a expressar estimativas de confiança granulares mais precisas e justificativas autorreflexivas; ele realiza ajuste fino supervisionado em um conjunto de dados que contém resumos das diferenças entre múltiplas cadeias de raciocínio; em seguida, aplica aprendizado por reforço para calibrar as estimativas de confiança, incentivando o LLM a produzir previsões precisas e de alta confiança e penalizando o excesso de confiança em saídas incorretas.
> A training framework to teach LLMs to express more accurate fine-grained confidence estimates and self-reflective rationales; it performs supervised finetuning on a dataset that contains summaries of the difference between multiple reasoning chains; reinforcement learning is then applied to calibrate confidence estimates, encouraging the LLM to produce accurate, high-confidence predictions and penalize overconfidence in erroneous outputs.

Resumo do artigo (Abstract)

Modelos de linguagem de grande porte (LLMs) frequentemente geram informações imprecisas ou fabricadas e, em geral, não indicam seu nível de confiança, o que muitas vezes limita sua aplicação mais ampla. Trabalhos anteriores extraíram confiança de LLMs por meio de prompting direto ou de autoconsistência, ou construindo conjuntos de dados específicos para ajuste fino supervisionado. As abordagens baseadas em prompting têm desempenho inferior, e as abordagens baseadas em treinamento se limitam a estimativas de confiança binárias ou imprecisas em nível de grupo. Neste estudo, os autores apresentam o SaySelf avançado, uma estrutura de treinamento que ensina LLMs a expressar estimativas de confiança mais precisas e granulares. Além disso, para além das pontuações de confiança, o SaySelf inicia um processo que orienta os LLMs a produzir justificativas autorreflexivas que identificam claramente lacunas em seu conhecimento paramétrico e explicam sua incerteza. Isso é feito usando um LLM para resumir automaticamente, em linguagem natural, as incertezas em conhecimentos específicos. O resumo se baseia na análise da inconsistência em múltiplas cadeias de raciocínio amostradas, e os dados resultantes são utilizados no ajuste fino supervisionado. Além disso, os autores utilizam aprendizado por reforço com uma função de recompensa cuidadosamente elaborada para calibrar as estimativas de confiança, incentivando os LLMs a fornecer previsões precisas e de alta confiança e penalizando a confiança excessiva em saídas erradas. Resultados experimentais em conjuntos de dados dentro e fora da distribuição demonstram a eficácia do SaySelf em reduzir o erro de calibração da confiança e manter o desempenho na tarefa. Os autores também mostram que as justificativas autorreflexivas geradas são razoáveis e podem contribuir ainda mais para a calibração. O código está disponível em https://github.com/xu1868/SaySelf.
> Large language models (LLMs) often generate inaccurate or fabricated information and generally fail to indicate their confidence, which limits their broader applications. Previous work elicits confidence from LLMs by direct or self-consistency prompting, or constructing specific datasets for supervised finetuning. The prompting-based approaches have inferior performance, and the training-based approaches are limited to binary or inaccurate group-level confidence estimates. In this work, we present the advanced SaySelf, a training framework that teaches LLMs to express more accurate fine-grained confidence estimates. In addition, beyond the confidence scores, SaySelf initiates the process of directing LLMs to produce self-reflective rationales that clearly identify gaps in their parametric knowledge and explain their uncertainty. This is achieved by using an LLM to automatically summarize the uncertainties in specific knowledge via natural language. The summarization is based on the analysis of the inconsistency in multiple sampled reasoning chains, and the resulting data is utilized for supervised fine-tuning. Moreover, we utilize reinforcement learning with a meticulously crafted reward function to calibrate the confidence estimates, motivating LLMs to deliver accurate, high-confidence predictions and to penalize overconfidence in erroneous outputs. Experimental results in both in-distribution and out-of-distribution datasets demonstrate the effectiveness of SaySelf in reducing the confidence calibration error and maintaining the task performance. We show that the generated self-reflective rationales are reasonable and can further contribute to the calibration. The code is made public at https://github.com/xu1868/SaySelf.

Link do artigo

https://arxiv.org/abs/2405.20974

Leia mais

https://github.com/xu1868/SaySelf

https://x.com/omarsar0/status/1797682549608833477


Geometria de conceitos categóricos e hierárquicos em modelos de linguagem de grande porte / The Geometry of Categorical and Hierarchical Concepts in Large Language Models

Introdução ao artigo

O estudo investiga como a estrutura geométrica de conceitos categóricos e as relações hierárquicas entre eles são codificadas em LLMs, e descobre que conceitos categóricos simples são representados como simplexos pelos LLMs, enquanto conceitos complexos são representados como politopos construídos a partir de somas diretas de simplexos, refletindo a estrutura hierárquica.
> Studies the geometry of categorical concepts and how the hierarchical relations between them are encoded in LLMs; finds that simple categorical concepts are represented as simplices by the LLMs and complex concepts are represented as polytopes constructed from direct sums of simplices, which reflect the hierarchical structure.

Resumo(Abstract)

Entender como o significado semântico é codificado no espaço de representações de grandes modelos de linguagem é um problema fundamental de interpretabilidade. Este artigo investiga duas questões centrais nessa área. Primeiro, como conceitos categóricos como {'mamífero', 'ave', 'réptil', 'peixe'} são representados? Segundo, como as relações hierárquicas entre conceitos são codificadas? Por exemplo, como é codificado o fato de que 'cachorro' é um tipo de 'mamífero'? Para responder a essas perguntas, os autores mostram como estender a hipótese de representação linear. Eles encontram uma estrutura surpreendentemente simples: conceitos categóricos simples são representados como simplexos, conceitos hierarquicamente relacionados são ortogonais em um sentido definido com precisão, e, como consequência, conceitos complexos são representados como politopos construídos a partir de somas diretas de simplexos, refletindo a estrutura hierárquica. Esses resultados teóricos são validados no grande modelo de linguagem Gemma, estimando representações para 957 conceitos hierarquicamente relacionados usando dados do WordNet.
> Understanding how semantic meaning is encoded in the representation spaces of large language models is a fundamental problem in interpretability. In this paper, we study the two foundational questions in this area. First, how are categorical concepts, such as {'mammal', 'bird', 'reptile', 'fish'}, represented? Second, how are hierarchical relations between concepts encoded? For example, how is the fact that 'dog' is a kind of 'mammal' encoded? We show how to extend the linear representation hypothesis to answer these questions. We find a remarkably simple structure: simple categorical concepts are represented as simplices, hierarchically related concepts are orthogonal in a sense we make precise, and (in consequence) complex concepts are represented as polytopes constructed from direct sums of simplices, reflecting the hierarchical structure. We validate these theoretical results on the Gemma large language model, estimating representations for 957 hierarchically related concepts using data from WordNet.

Link do artigo

https://arxiv.org/abs/2406.01506

Leia mais

https://x.com/omarsar0/status/1798010546522103898


Mostrar, não dizer: alinhando modelos de linguagem com feedback demonstrado / Show, Don't Tell: Aligning Language Models with Demonstrated Feedback

Introdução ao artigo

Propõe um método para alinhar LLMs a um contexto específico por meio de um número muito pequeno de demonstrações como feedback; alinha as saídas dos LLMs aos comportamentos demonstrados pelo usuário e pode aprender alinhamentos refinados de estilo e tarefa em vários domínios; supera few-shot prompting, SFT e métodos de self-play nos benchmarks testados.
> Proposes a method to align LLMs to a specific setting via a very small number of demonstrations as feedback; it aligns LLM outputs to a user’s demonstrated behaviors and can learn fine-grained style and task alignment across domains; outperforms few-shot prompting, SFT, and self-play methods on the tested benchmarks.

Resumo do artigo (Abstract)

Modelos de linguagem são alinhados para emular a voz coletiva de muitos, resultando em saídas que não se alinham com ninguém em particular. Direcionar LLMs para longe de saídas genéricas é possível por meio de ajuste fino supervisionado ou RLHF, mas isso exige conjuntos de dados proibitivamente grandes para novas tarefas ad hoc. Em vez disso, os autores argumentam que é possível alinhar um LLM a um contexto específico aproveitando um número muito pequeno de demonstrações ($<10$) como feedback. O método deles, Demonstration ITerated Task Optimization (DITTO), alinha diretamente as saídas do modelo de linguagem aos comportamentos demonstrados pelo usuário. Derivado de ideias de aprendizado por imitação online, o DITTO gera dados comparativos online de forma barata ao tratar as demonstrações dos usuários como preferíveis às saídas do LLM e de seus checkpoints intermediários. Os autores avaliam a capacidade do DITTO de aprender alinhamentos refinados de estilo e tarefa em domínios como artigos de notícias, e-mails e posts de blog. Além disso, realizam um estudo com usuários solicitando uma variedade de demonstrações dos participantes ($N=16$). Em seus benchmarks e no estudo com usuários, eles constatam que as taxas de vitória do DITTO superam few-shot prompting, ajuste fino supervisionado e outros métodos de self-play em uma média de 19 pontos percentuais. Ao usar demonstrações diretamente como feedback, o DITTO oferece um novo método para personalização eficaz de LLMs.
> Language models are aligned to emulate the collective voice of many, resulting in outputs that align with no one in particular. Steering LLMs away from generic output is possible through supervised finetuning or RLHF, but requires prohibitively large datasets for new ad-hoc tasks. We argue that it is instead possible to align an LLM to a specific setting by leveraging a very small number ($<10$) of demonstrations as feedback. Our method, Demonstration ITerated Task Optimization (DITTO), directly aligns language model outputs to a user's demonstrated behaviors. Derived using ideas from online imitation learning, DITTO cheaply generates online comparison data by treating users' demonstrations as preferred over output from the LLM and its intermediate checkpoints. We evaluate DITTO's ability to learn fine-grained style and task alignment across domains such as news articles, emails, and blog posts. Additionally, we conduct a user study soliciting a range of demonstrations from participants ($N=16$). Across our benchmarks and user study, we find that win-rates for DITTO outperform few-shot prompting, supervised fine-tuning, and other self-play methods by an average of 19% points. By using demonstrations as feedback directly, DITTO offers a novel method for effective customization of LLMs.

Link do artigo

https://arxiv.org/abs/2406.00888

Leia mais

https://x.com/arankomatsuzaki/status/1797833884463472653


Rumo ao alinhamento automatizado escalável de LLMs: um artigo de survey / Towards Scalable Automated Alignment of LLMs: A Survey

Apresentação do artigo

Fornece uma visão geral dos métodos usados para alinhar LLMs e explora as 4 direções a seguir: 1) alinhamento por viés indutivo, 2) alinhamento por imitação de comportamento, 3) alinhamento por feedback do modelo e 4) alinhamento por feedback do ambiente.
> Provides an overview of methods used for alignment of LLMs; explores the 4 following directions: 1) aligning through inductive bias, 2) aligning through behavior imitation, 3) aligning through model feedback, and 4) aligning through environment feedback.

Resumo do artigo (Abstract)

O alinhamento é a etapa mais crítica na construção de modelos de linguagem de grande porte (LLMs) que atendam às necessidades humanas. Com o rápido desenvolvimento dos LLMs, que gradualmente passam a superar as capacidades humanas, os métodos tradicionais de alinhamento baseados em anotação humana estão cada vez menos capazes de atender às demandas de escalabilidade. Portanto, há uma necessidade urgente de explorar novas fontes de sinais de alinhamento automatizado e novas abordagens técnicas. Neste artigo, revisamos de forma sistemática os métodos de alinhamento automatizado que surgiram recentemente, buscando entender como alcançar um alinhamento automatizado eficaz e escalável quando as capacidades dos LLMs ultrapassarem as dos humanos. Especificamente, categorizamos os métodos existentes de alinhamento automatizado em 4 grandes categorias com base nas fontes dos sinais de alinhamento e discutimos o estado atual e o potencial de desenvolvimento de cada categoria. Além disso, exploramos os mecanismos subjacentes que tornam o alinhamento automatizado possível e discutimos os fatores essenciais que tornam essas tecnologias viáveis e eficazes a partir do papel fundamental do alinhamento.
> Alignment is the most critical step in building large language models (LLMs) that meet human needs. With the rapid development of LLMs gradually surpassing human capabilities, traditional alignment methods based on human-annotation are increasingly unable to meet the scalability demands. Therefore, there is an urgent need to explore new sources of automated alignment signals and technical approaches. In this paper, we systematically review the recently emerging methods of automated alignment, attempting to explore how to achieve effective, scalable, automated alignment once the capabilities of LLMs exceed those of humans. Specifically, we categorize existing automated alignment methods into 4 major categories based on the sources of alignment signals and discuss the current status and potential development of each category. Additionally, we explore the underlying mechanisms that enable automated alignment and discuss the essential factors that make automated alignment technologies feasible and effective from the fundamental role of alignment.

Link do artigo

https://arxiv.org/abs/2406.01252

Leia mais

https://x.com/omarsar0/status/1798014572663583165


AgentGym: Evoluindo agentes baseados em grandes modelos de linguagem em ambientes diversos / AgentGym: Evolving Large Language Model-based Agents across Diverse Environments

Apresentação do artigo

Uma nova estrutura com vários ambientes e tarefas para exploração ampla, em tempo real e concorrente de agentes; constrói um agente baseado em LLM com capacidades gerais e habilidade de autoevolução, explorando seu potencial além dos dados vistos anteriormente em diferentes tarefas e ambientes.
> A new framework featuring various environments and tasks for broad, real-time, and concurrent agent exploration; builds a generally capable LLM-based agent with self-evolution abilities and explores its potential beyond previously seen data across tasks and environments.

Resumo do artigo (Abstract)

Construir agentes generalistas capazes de lidar com tarefas diversas e evoluir por conta própria em diferentes ambientes é um objetivo de longo prazo da comunidade de IA. Os grandes modelos de linguagem (LLMs) são considerados uma base promissora para construir esses agentes devido às suas capacidades generalizadas. As abordagens atuais ou fazem com que agentes baseados em LLM imitem passo a passo trajetórias fornecidas por especialistas, exigindo supervisão humana, o que é difícil de escalar e limita a exploração do ambiente; ou permitem que os agentes explorem e aprendam em ambientes isolados, resultando em agentes especialistas com generalização limitada. Neste artigo, os autores dão o primeiro passo rumo à construção de agentes baseados em LLM com capacidade geral e habilidade de autoevolução. Eles identificam uma tríade de ingredientes: 1) ambientes diversos para exploração e aprendizado do agente, 2) um conjunto de trajetórias para equipar os agentes com capacidades básicas e conhecimento prévio, e 3) um método de evolução eficaz e escalável. É proposto o AgentGym, um novo framework com uma variedade de ambientes e tarefas para exploração ampla, em tempo real, em formato unificado e concorrente por agentes. O AgentGym também inclui um banco de dados com instruções expandidas, um conjunto de benchmarks e trajetórias de alta qualidade em diferentes ambientes. Em seguida, é proposto um novo método, AgentEvol, para investigar o potencial de autoevolução dos agentes além dos dados vistos anteriormente em tarefas e ambientes. Os resultados experimentais mostram que os agentes evoluídos podem alcançar resultados comparáveis aos modelos SOTA. O conjunto AgentGym é lançado incluindo a plataforma, o dataset, os benchmarks, os checkpoints e as implementações dos algoritmos. O conjunto AgentGym está disponível em https://github.com/WooooDyy/AgentGym.
> Building generalist agents that can handle diverse tasks and evolve themselves across different environments is a long-term goal in the AI community. Large language models (LLMs) are considered a promising foundation to build such agents due to their generalized capabilities. Current approaches either have LLM-based agents imitate expert-provided trajectories step-by-step, requiring human supervision, which is hard to scale and limits environmental exploration; or they let agents explore and learn in isolated environments, resulting in specialist agents with limited generalization. In this paper, we take the first step towards building generally-capable LLM-based agents with self-evolution ability. We identify a trinity of ingredients: 1) diverse environments for agent exploration and learning, 2) a trajectory set to equip agents with basic capabilities and prior knowledge, and 3) an effective and scalable evolution method. We propose AgentGym, a new framework featuring a variety of environments and tasks for broad, real-time, uni-format, and concurrent agent exploration. AgentGym also includes a database with expanded instructions, a benchmark suite, and high-quality trajectories across environments. Next, we propose a novel method, AgentEvol, to investigate the potential of agent self-evolution beyond previously seen data across tasks and environments. Experimental results show that the evolved agents can achieve results comparable to SOTA models. We release the AgentGym suite, including the platform, dataset, benchmark, checkpoints, and algorithm implementations. The AgentGym suite is available on https://github.com/WooooDyy/AgentGym.

Link do artigo

https://arxiv.org/abs/2406.04151

Leia mais

https://github.com/WooooDyy/AgentGym

https://x.com/arankomatsuzaki/status/1798904095669121443


Texto original

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-90f


Este texto foi organizado com um modelo GPT e pode conter erros, então consulte também o texto original no link ao final! Se você encontrar algum trecho estranho ou incorreto durante a leitura, pedimos que nos avise nos comentários. 🤗

⚠️Publicidade⚠️: Este texto organizado pelo 🔥PyTorch Korean User Group🇰🇷 foi útil para você? Se inscrever como membro, você receberá os principais textos por e-mail💌! (O padrão é Weekly, mas também é possível mudar para Daily.)

Ainda não há comentários.

Ainda não há comentários.