24] Principais artigos de ML da semana (Top ML Papers of the Week)

(discuss.pytorch.kr)

1 pontos por ninebow 2024-03-27 | Ainda não há comentários. | Compartilhar no WhatsApp

Traduzimos automaticamente o texto semanal da DAIR.AI sobre artigos de ML.

Entre os artigos selecionados nesta semana, de modo geral aparecem muitos estudos que utilizam grandes modelos de linguagem (LLMs). Em especial, como se pode ver por títulos como 'Tool Use in LLMs', 'Step-by-Step Comparisons Make LLMs Better Reasoners', 'LLM4Decompile', 'Agent-FLAN', 'LLMs Leak Proprietary Information' e 'Retrieval-Augmented Fine-Tuning', esses artigos parecem tratar da ampla gama de aplicações dos LLMs, de métodos para melhorar seu desempenho e até de questões de segurança.
Essa tendência pode ser vista como resultado dos esforços, ao longo dos últimos anos, para explorar o alcance de uso dos LLMs em diversos campos de pesquisa, à medida que eles ganharam destaque na área de inteligência artificial. Em particular, além de metodologias para processar tarefas existentes com mais eficiência, estudos sobre uso de ferramentas, melhoria da capacidade de raciocínio no processo de resolução de problemas, exploração de novas áreas de aplicação como engenharia reversa de software e pesquisas sobre estabilidade e segurança dos modelos estão ampliando as possibilidades de evolução dos LLMs. Além disso, esses estudos desempenham um papel importante no aprofundamento da compreensão de como os LLMs podem ser usados em ambientes reais e de quais são os potenciais problemas relacionados a isso.
Além disso, artigos como 'Evolutionary Model Merge' e 'DROID' propõem pesquisas sobre o processo de integração e evolução dos modelos, mostrando que também está crescendo o interesse por métodos para melhorar e otimizar continuamente o desempenho dos modelos. Isso aponta uma direção importante não apenas para os LLMs, mas também para o desenvolvimento e a integração de diversas tecnologias de inteligência artificial, e deve continuar sendo um tema importante em pesquisas futuras. Portanto, os artigos selecionados nesta semana oferecem insights valiosos sobre as tendências atuais e os rumos futuros das pesquisas relacionadas a LLMs.

Grok-1

Apresentação do artigo

Um modelo mixture-of-experts com 314B parâmetros, incluindo o lançamento aberto dos pesos do modelo base e da arquitetura de rede; o modelo MoE ativa 25% dos pesos para um determinado token, e a data de corte do pré-treinamento é outubro de 2023.

a mixture-of-experts model with 314B parameters which includes the open release of the base model weights and network architecture; the MoE model activates 25% of the weights for a given token and its pretraining cutoff date is October 2023.

Link do artigo

https://x.ai/blog/grok-os

Otimização evolutiva de receitas de fusão de modelos / Evolutionary Optimization of Model Merging Recipes

Apresentação do artigo

Uma abordagem para automatizar o desenvolvimento de modelos fundacionais usando evolução para combinar modelos de código aberto; ela facilita a fusão entre domínios, na qual um LLM japonês de matemática alcançou desempenho de ponta em benchmarks japoneses de LLM, chegando até a superar modelos com significativamente mais parâmetros, mesmo sem ter sido explicitamente treinado para essas tarefas.

an approach for automating foundation model development using evolution to combine open-source models; facilitates cross-domain merging where a Japanese Math LLM achieved state-of-the-art performance on Japanese LLM benchmarks, even surpassing models with significantly more parameters, despite not explicitly trained for these tasks.

Resumo do artigo (Abstract)

Apresentamos uma nova aplicação de algoritmos evolutivos para automatizar a criação de poderosos modelos fundacionais. Embora a fusão de modelos tenha emergido como uma abordagem promissora para o desenvolvimento de LLMs devido à sua eficiência de custos, atualmente ela depende da intuição humana e de conhecimento de domínio, o que limita seu potencial. Aqui, propomos uma abordagem evolutiva que supera essa limitação ao descobrir automaticamente combinações eficazes de diversos modelos de código aberto, aproveitando sua inteligência coletiva sem exigir grandes volumes adicionais de dados de treinamento ou poder computacional. Nossa abordagem opera tanto no espaço de parâmetros quanto no espaço de fluxo de dados, permitindo otimização para além dos pesos dos modelos individuais. Essa abordagem inclusive facilita fusões entre domínios, podendo gerar modelos como um LLM em japonês com capacidades de raciocínio matemático. Surpreendentemente, nosso LLM japonês de matemática alcançou desempenho de ponta em uma variedade de benchmarks japoneses de LLM já estabelecidos, superando até mesmo modelos com significativamente mais parâmetros, apesar de não ter sido explicitamente treinado para esse tipo de tarefa. Além disso, um VLM japonês com consciência cultural gerado por meio da nossa abordagem demonstrou sua eficácia na descrição de conteúdos específicos da cultura japonesa, superando VLMs japoneses anteriores. Este trabalho não apenas devolve à comunidade open source novos modelos de última geração, como também introduz um novo paradigma para composição automatizada de modelos, abrindo caminho para explorar abordagens alternativas e eficientes para o desenvolvimento de modelos fundacionais.

We present a novel application of evolutionary algorithms to automate the creation of powerful foundation models. While model merging has emerged as a promising approach for LLM development due to its cost-effectiveness, it currently relies on human intuition and domain knowledge, limiting its potential. Here, we propose an evolutionary approach that overcomes this limitation by automatically discovering effective combinations of diverse open-source models, harnessing their collective intelligence without requiring extensive additional training data or compute. Our approach operates in both parameter space and data flow space, allowing for optimization beyond just the weights of the individual models. This approach even facilitates cross-domain merging, generating models like a Japanese LLM with Math reasoning capabilities. Surprisingly, our Japanese Math LLM achieved state-of-the-art performance on a variety of established Japanese LLM benchmarks, even surpassing models with significantly more parameters, despite not being explicitly trained for such tasks. Furthermore, a culturally-aware Japanese VLM generated through our approach demonstrates its effectiveness in describing Japanese culture-specific content, outperforming previous Japanese VLMs. This work not only contributes new state-of-the-art models back to the open-source community, but also introduces a new paradigm for automated model composition, paving the way for exploring alternative, efficient approaches to foundation model development.

Link do artigo

https://arxiv.org/abs/2403.13187

TacticAI: assistente de IA para táticas de futebol / TacticAI: an AI assistant for football tactics

Apresentação do artigo

Um sistema de assistência por IA para táticas de futebol, desenvolvido e avaliado em colaboração com especialistas de diferentes áreas do Liverpool FC, que oferece aos técnicos uma forma de amostrar e explorar configurações alternativas de jogadores para rotinas de escanteio e selecionar a tática com maior probabilidade de sucesso; as sugestões do modelo TacticAI são preferidas em 90% dos casos em relação às táticas existentes e oferecem um sistema eficaz de busca de escanteios.

an AI-powered assistant for football tactics developed and evaluated in collaboration with domain experts from Liverpool FC; the systems offer coaches a way to sample and explore alternative player setups for a corner kick routine and select the tactic with the highest predicted likelihood of success; TacticAI’s model suggestions are favored over existing tactics 90% of the time and it offers an effective corner kick retrieval system.

Resumo do artigo (Abstract)

Identificar padrões-chave das táticas utilizadas por times rivais e desenvolver respostas eficazes está no centro do futebol moderno. No entanto, fazer isso de forma algorítmica continua sendo um desafio de pesquisa em aberto. Para atender a essa necessidade ainda não suprida, a Unity propõe o TacticAI, um assistente de IA para táticas de futebol desenvolvido e avaliado em estreita colaboração com especialistas do Liverpool FC. O foco está na análise de escanteios, já que eles oferecem aos técnicos as oportunidades mais diretas de intervenção e melhoria. O TacticAI integra componentes tanto preditivos quanto generativos, permitindo que os técnicos amostrem e explorem com eficiência configurações alternativas de jogadores para cada rotina de escanteio e escolham aquelas com a maior probabilidade prevista de sucesso. A Unity valida o TacticAI em diversos benchmarks relevantes: previsão de recebedores e tentativas de chute, além de recomendação de ajustes de posicionamento dos jogadores. A utilidade do TacticAI foi validada por meio de um estudo qualitativo conduzido com especialistas em futebol do Liverpool FC. Os resultados mostram que as sugestões do modelo TacticAI não apenas são indistinguíveis de táticas reais, como também são preferidas às táticas existentes em 90% dos casos, além de fornecerem um sistema eficaz de busca de escanteios. O TacticAI conseguiu alcançar esses resultados apesar da disponibilidade limitada de dados gold-standard, obtendo eficiência de dados por meio de geometric deep learning.

Identifying key patterns of tactics implemented by rival teams, and developing effective responses, lies at the heart of modern football. However, doing so algorithmically remains an open research challenge. To address this unmet need, we propose TacticAI, an AI football tactics assistant developed and evaluated in close collaboration with domain experts from Liverpool FC. We focus on analysing corner kicks, as they offer coaches the most direct opportunities for interventions and improvements. TacticAI incorporates both a predictive and a generative component, allowing the coaches to effectively sample and explore alternative player setups for each corner kick routine and to select those with the highest predicted likelihood of success. We validate TacticAI on a number of relevant benchmark tasks: predicting receivers and shot attempts and recommending player position adjustments. The utility of TacticAI is validated by a qualitative study conducted with football domain experts at Liverpool FC. We show that TacticAI’s model suggestions are not only indistinguishable from real tactics, but also favoured over existing tactics 90% of the time, and that TacticAI offers an effective corner kick retrieval system. TacticAI achieves these results despite the limited availability of gold-standard data, achieving data efficiency through geometric deep learning.

Link do artigo

https://www.nature.com/articles/s41467-024-45965-x

Uso de ferramentas em LLMs / Tool Use in LLMs

Apresentação do artigo

Fornece uma visão geral do uso de ferramentas em LLMs, incluindo uma definição formal do paradigma de uso de ferramentas, cenários em que os LLMs aproveitam esse uso e para quais tarefas essa abordagem funciona bem; também oferece uma análise do uso complexo de ferramentas e resume testbeds e métricas de avaliação em trabalhos de tooling para LM.

provides an overview of tool use in LLMs, including a formal definition of the tool-use paradigm, scenarios where LLMs leverage tool usage, and for which tasks this approach works well; it also provides an analysis of complex tool usage and summarize testbeds and evaluation metrics across LM tooling works.

Resumo do artigo (Abstract)

Modelos de linguagem (LMs) são poderosos, mas são usados principalmente para tarefas de geração de texto. Ferramentas melhoraram substancialmente seu desempenho em tarefas que exigem habilidades complexas. No entanto, muitos trabalhos adotam o termo “ferramenta” de maneiras diferentes, levantando a questão: afinal, o que é uma ferramenta? Em seguida, onde e como as ferramentas ajudam os LMs? Nesta survey, fornecemos uma definição unificada de ferramentas como programas externos usados por LMs e realizamos uma revisão sistemática dos cenários e abordagens de uso de ferramentas por LMs. Com base nessa revisão, estudamos empiricamente a eficiência de vários métodos de uso de ferramentas medindo o custo computacional necessário e os ganhos de desempenho em vários benchmarks, além de destacar alguns desafios e possíveis direções de pesquisa futuras na área.

Language models (LMs) are powerful yet mostly for text generation tasks. Tools have substantially enhanced their performance for tasks that require complex skills. However, many works adopt the term “tool” in different ways, raising the question: What is a tool anyway? Subsequently, where and how do tools help LMs? In this survey, we provide a unified definition of tools as external programs used by LMs, and perform a systematic review of LM tooling scenarios and approaches. Grounded on this review, we empirically study the efficiency of various tooling methods by measuring their required compute and performance gains on various benchmarks, and highlight some challenges and potential future research in the field.

Link do artigo

https://zorazrw.github.io/files/WhatAreToolsAnyway.pdf

RankPrompt: tornar modelos de linguagem melhores em raciocínio por meio de comparações passo a passo / RankPrompt: Step-by-Step Comparisons Make Language Models Better Reasoners

Introdução ao artigo

Propõe o RankPrompt, um método de prompting que permite que LLMs classifiquem suas próprias respostas sem recursos adicionais. Essa abordagem de auto-ranqueamento classifica candidatos por meio de uma avaliação comparativa sistemática, passo a passo; ela parece funcionar bem porque aproveita a capacidade dos LLMs de gerar cadeias de comparação como demonstrações. O RankPrompt melhora significativamente o desempenho de raciocínio do ChatGPT e do GPT-4 em muitas tarefas de raciocínio aritmético e de senso comum.

proposes RankPrompt, a prompting method to enable LLMs to self-rank their responses without additional resources; this self-ranking approach ranks candidates through a systematic, step-by-step comparative evaluation; it seems to work well as it leverages the capabilities of LLMs to generate chains of comparisons as demonstrations; RankPrompt significantly enhances the reasoning performance of ChatGPT and GPT-4 on many arithmetic and commonsense reasoning tasks.

Resumo do artigo (Abstract)

Grandes modelos de linguagem (LLMs) têm alcançado desempenho impressionante em várias tarefas de raciocínio. No entanto, até mesmo LLMs de ponta, como o ChatGPT, estão sujeitos a erros lógicos durante seus processos de raciocínio. Soluções existentes, como empregar verificadores específicos por tarefa ou votar entre múltiplos caminhos de raciocínio, ou exigem ampla anotação humana ou falham em cenários com respostas inconsistentes. Para enfrentar esses desafios, os autores introduzem o RankPrompt, um novo método de prompting que permite que LLMs classifiquem suas próprias respostas sem recursos adicionais. O RankPrompt decompõe o problema de ranking em uma série de comparações entre respostas diversas, aproveitando as capacidades inerentes dos LLMs para gerar cadeias de comparação como exemplos contextuais. Experimentos em 11 tarefas de raciocínio aritmético e de senso comum mostram que o RankPrompt melhora significativamente o desempenho de raciocínio do ChatGPT e do GPT-4, com ganhos de até 13%. Além disso, o RankPrompt se destaca em avaliações automáticas baseadas em LLM para tarefas abertas, alinhando-se aos julgamentos humanos em 74% das vezes no conjunto de dados AlpacaEval. Também apresenta robustez a variações na ordem e na consistência das respostas. Em conjunto, os resultados validam o RankPrompt como um método eficaz para extrair feedback de alta qualidade de modelos de linguagem.

Large Language Models (LLMs) have achieved impressive performance across various reasoning tasks. However, even state-of-the-art LLMs such as ChatGPT are prone to logical errors during their reasoning processes. Existing solutions, such as deploying task-specific verifiers or voting over multiple reasoning paths, either require extensive human annotations or fail in scenarios with inconsistent responses. To address these challenges, we introduce RankPrompt, a new prompting method that enables LLMs to self-rank their responses without additional resources. RankPrompt breaks down the ranking problem into a series of comparisons among diverse responses, leveraging the inherent capabilities of LLMs to generate chains of comparison as contextual exemplars. Our experiments across 11 arithmetic and commonsense reasoning tasks show that RankPrompt significantly enhances the reasoning performance of ChatGPT and GPT-4, with improvements of up to 13%. Moreover, RankPrompt excels in LLM-based automatic evaluations for open-ended tasks, aligning with human judgments 74% of the time in the AlpacaEval dataset. It also exhibits robustness to variations in response order and consistency. Collectively, our results validate RankPrompt as an effective method for eliciting high-quality feedback from language models.

Link do artigo

https://arxiv.org/abs/2403.12373

LLM4Decompile: descompilando código binário com grandes modelos de linguagem / LLM4Decompile: Decompiling Binary Code with Large Language Models

Introdução ao artigo

uma família de LLMs de descompilação com acesso aberto, variando de 1B a 33B de parâmetros; esses modelos são treinados com 4 bilhões de tokens de código-fonte em C e o código assembly correspondente; os autores também apresentam o Decompile-Eval, um conjunto de dados para avaliar recompilabilidade e reexecutabilidade na descompilação e realizar avaliações sob a perspectiva da semântica de programas; o LLM4Decompile demonstra a capacidade de descompilar 21% do código assembly, alcançando uma melhoria de 50% em relação ao GPT-4.

a family of open-access decompilation LLMs ranging from 1B to 33B parameters; these models are trained on 4 billion tokens of C source code and corresponding assembly code; the authors also introduce Decompile-Eval, a dataset for assessing re-compatibility and re-executability for decompilation and evaluating with a perspective of program semantics; LLM4Decompile demonstrates the capability to decompile 21% of the assembly code, achieving a 50% improvement over GPT-4.

Resumo do artigo (Abstract)

A descompilação tem como objetivo restaurar código compilado para um código-fonte legível por humanos, mas enfrenta dificuldades com detalhes como nomes e estrutura. Grandes modelos de linguagem (LLMs) mostram potencial em tarefas de programação, o que motiva sua aplicação à descompilação. No entanto, não existe nenhum LLM de código aberto para descompilação. Além disso, os sistemas existentes de avaliação de descompilação consideram principalmente a precisão em nível de token e em grande parte ignoram a executabilidade do código, que é a característica mais importante de qualquer programa. Portanto, disponibilizamos os primeiros LLMs de descompilação com acesso aberto, variando de 1B a 33B, pré-treinados com 4 bilhões de tokens de código-fonte em C e o código assembly correspondente. Esses LLMs de código aberto podem servir como referência para futuros desenvolvimentos na área. Para garantir uma avaliação prática de programas, apresentamos o Decompile-Eval, o primeiro conjunto de dados que considera recompilabilidade e reexecutabilidade para descompilação. Esse benchmark enfatiza a importância de avaliar o modelo de descompilação sob a perspectiva da semântica de programas. Os experimentos indicam que nosso LLM4Decompile demonstrou a capacidade de descompilar com precisão 21% do código assembly, alcançando uma melhoria de 50% em relação ao GPT-4. Nosso código, conjunto de dados e modelos estão disponíveis em https://github.com/albertan017/LLM4Decompile

Decompilation aims to restore compiled code to human-readable source code, but struggles with details like names and structure. Large language models (LLMs) show promise for programming tasks, motivating their application to decompilation. However, there does not exist any open-source LLM for decompilation. Moreover, existing decompilation evaluation systems mainly consider token-level accuracy and largely ignore code executability, which is the most important feature of any program. Therefore, we release the first open-access decompilation LLMs ranging from 1B to 33B pre-trained on 4 billion tokens of C source code and the corresponding assembly code. The open-source LLMs can serve as baselines for further development in the field. To ensure practical program evaluation, we introduce Decompile-Eval, the first dataset that considers re-compilability and re-executability for decompilation. The benchmark emphasizes the importance of evaluating the decompilation model from the perspective of program semantics. Experiments indicate that our LLM4Decompile has demonstrated the capability to accurately decompile 21% of the assembly code, which achieves a 50% improvement over GPT-4. Our code, dataset, and models are released at https://github.com/albertan017/LLM4Decompile

Link do artigo

https://arxiv.org/abs/2403.05286v1

Agent-FLAN: projetando dados e métodos de ajuste eficaz de agentes para grandes modelos de linguagem / Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for Large Language Models

Introdução ao artigo

projeta dados e métodos para ajustar finamente modelos de linguagem para agentes de forma eficaz, chamado Agent-FLAN; isso permite que o Llama2-7B supere os melhores trabalhos anteriores em 3,5% em vários conjuntos de dados de avaliação de agentes; o Agent-FLAN reduz significativamente os problemas de alucinação e melhora de forma consistente a capacidade de agentes dos LLMs ao escalar o tamanho dos modelos, ao mesmo tempo em que melhora o LLM de modo geral;

Designs data and methods to effectively fine-tune language models for agents, referred to as Agent-FLAN; this enables Llama2-7B to outperform prior best works by 3.5% across various agent evaluation datasets; Agent-FLAN greatly alleviates the hallucination issues and consistently improves the agent capability of LLMs when scaling model sizes while generally improving the LLM;

Resumo do artigo (Abstract)

Modelos de linguagem grandes (LLMs) de código aberto alcançaram grande sucesso em várias tarefas de NLP, mas ainda são muito inferiores a modelos baseados em API quando atuam como agentes. Como integrar capacidades de agente em LLMs gerais tornou-se um problema crucial e urgente. Este artigo primeiro apresenta três observações principais: (1) o corpus atual de treinamento de agentes mistura seguimento de formato e raciocínio de agente, o que se desvia significativamente da distribuição dos dados de pré-treinamento; (2) LLMs exibem diferentes velocidades de aprendizado nas capacidades exigidas por tarefas de agente; e (3) abordagens atuais têm efeitos colaterais ao melhorar capacidades de agente por meio da introdução de alucinações. Com base nessas descobertas, os autores propõem o Agent-FLAN para ajustar com eficácia modelos de linguagem para agentes. Por meio de uma decomposição cuidadosa e do redesenho do corpus de treinamento, o Agent-FLAN permite que o Llama2-7B supere os melhores trabalhos anteriores em 3.5% em vários conjuntos de dados de avaliação de agentes. Com amostras negativas construídas de forma abrangente, o Agent-FLAN reduz significativamente os problemas de alucinação com base no benchmark de avaliação estabelecido. Além disso, ele melhora de forma consistente a capacidade de agente dos LLMs ao escalar o tamanho dos modelos, ao mesmo tempo em que aprimora levemente a capacidade geral dos LLMs. O código estará disponível em https://github.com/InternLM/Agent-FLAN.

Open-sourced Large Language Models (LLMs) have achieved great success in various NLP tasks, however, they are still far inferior to API-based models when acting as agents. How to integrate agent ability into general LLMs becomes a crucial and urgent problem. This paper first delivers three key observations: (1) the current agent training corpus is entangled with both formats following and agent reasoning, which significantly shifts from the distribution of its pre-training data; (2) LLMs exhibit different learning speeds on the capabilities required by agent tasks; and (3) current approaches have side-effects when improving agent abilities by introducing hallucinations. Based on the above findings, we propose Agent-FLAN to effectively Fine-tune LANguage models for Agents. Through careful decomposition and redesign of the training corpus, Agent-FLAN enables Llama2-7B to outperform prior best works by 3.5% across various agent evaluation datasets. With comprehensively constructed negative samples, Agent-FLAN greatly alleviates the hallucination issues based on our established evaluation benchmark. Besides, it consistently improves the agent capability of LLMs when scaling model sizes while slightly enhancing the general capability of LLMs. The code will be available at https://github.com/InternLM/Agent-FLAN.

Link do artigo

https://arxiv.org/abs/2403.12881v1

Quando os logits de LLMs protegidos por API vazam informações proprietárias / Logits of API-Protected LLMs Leak Proprietary Information

Introdução do artigo

Mostra que é possível aprender uma grande quantidade de informações não públicas sobre um LLM protegido por API usando os logits; com um número relativamente pequeno de consultas à API, a abordagem estima que o tamanho da embedding do gpt-3.5-turbo da OpenAI seja de cerca de 4.096; o artigo também propõe proteções contra os ataques usados.

shows that it’s possible to learn a large amount of non-public information about an API-protected LLM using the logits; with a relatively small number of API queries, the approach estimates that the embedding size of OpenAI's gpt-3.5-turbo to be about 4,096; the paper also proposes guardrails against the attacks used.

Resumo(Abstract)

A comercialização dos grandes modelos de linguagem (LLMs) levou à prática comum de acesso apenas via API de alto nível a modelos proprietários. Este estudo mostra que, mesmo com uma suposição conservadora sobre a arquitetura do modelo, é possível aprender uma quantidade surpreendentemente grande de informações não públicas sobre um LLM protegido por API com um número relativamente pequeno de consultas à API (por exemplo, custando menos de US$ 1.000 no caso do gpt-3.5-turbo da OpenAI). O ponto central dos resultados é que a maioria dos LLMs modernos sofre com o gargalo do softmax, o que restringe as saídas do modelo a um subespaço linear do espaço completo de saída. Mostramos que isso se presta a uma imagem do modelo ou assinatura do modelo, o que viabiliza várias capacidades a baixo custo, como descobrir com eficiência o tamanho oculto do LLM, obter saídas para todo o vocabulário, detectar e diferenciar várias atualizações de modelo, identificar o LLM de origem dado uma única saída completa do LLM e até estimar os parâmetros da camada de saída. Investigações empíricas confirmaram a eficácia desses métodos, permitindo estimar o tamanho da embedding do gpt-3.5-turbo da OpenAI em cerca de 4.096. Por fim, discutimos maneiras de os provedores de LLM se defenderem desses ataques, bem como formas de encarar essas capacidades como um recurso, e não um bug, por permitirem maior transparência e responsabilização.

The commercialization of large language models (LLMs) has led to the common practice of high-level API-only access to proprietary models. In this work, we show that even with a conservative assumption about the model architecture, it is possible to learn a surprisingly large amount of non-public information about an API-protected LLM from a relatively small number of API queries (e.g., costing under $1,000 for OpenAI's gpt-3.5-turbo). Our findings are centered on one key observation: most modern LLMs suffer from a softmax bottleneck, which restricts the model outputs to a linear subspace of the full output space. We show that this lends itself to a model image or a model signature which unlocks several capabilities with affordable cost: efficiently discovering the LLM's hidden size, obtaining full-vocabulary outputs, detecting and disambiguating different model updates, identifying the source LLM given a single full LLM output, and even estimating the output layer parameters. Our empirical investigations show the effectiveness of our methods, which allow us to estimate the embedding size of OpenAI's gpt-3.5-turbo to be about 4,096. Lastly, we discuss ways that LLM providers can guard against these attacks, as well as how these capabilities can be viewed as a feature (rather than a bug) by allowing for greater transparency and accountability.

Link do artigo

https://arxiv.org/abs/2403.09539

DROID: Conjunto de dados em larga escala de manipulação robótica no mundo real / DROID: A Large-Scale In-The-Wild Robot Manipulation Dataset

Introdução ao artigo

Um conjunto de dados open source e em larga escala de manipulação robótica para treinar e desenvolver políticas de manipulação robótica mais capazes e robustas, contendo 76.000 trajetórias de demonstração coletadas em 564 cenas e 86 tarefas; treinar com o DROID pode levar a políticas de maior desempenho e melhor generalização.

an open-source, large-scale robot manipulation dataset to train and build more capable and robust robotic manipulation policies; it contains 76K demonstration trajectories, collected across 564 scenes and 86 tasks; training with DROID leads to higher performing policies and generalization.

Resumo do artigo (Abstract)

A criação de conjuntos de dados de manipulação robótica grandes, diversos e de alta qualidade é um importante trampolim no caminho para políticas de manipulação robótica mais capazes e robustas. No entanto, criar esses conjuntos de dados é desafiador: coletar dados de manipulação robótica em ambientes diversos traz desafios logísticos e de segurança e exige investimentos substanciais em hardware e trabalho humano. Como resultado, até mesmo as políticas de manipulação robótica mais gerais da atualidade são, em sua maioria, treinadas com dados coletados em um pequeno número de ambientes, com diversidade limitada de cenas e tarefas. Neste trabalho, apresentamos o DROID (Distributed Robot Interaction Dataset), um conjunto de dados diverso de manipulação robótica com 76 mil trajetórias de demonstração, ou 350 horas de dados de interação, coletadas em 564 cenas e 84 tarefas por 50 coletores de dados na América do Norte, Ásia e Europa ao longo de 12 meses. Demonstramos que o treinamento com DROID leva a políticas com maior desempenho e melhor capacidade de generalização. Estamos disponibilizando em open source o conjunto de dados completo, o código de aprendizado de políticas e um guia detalhado para reproduzir nossa configuração de hardware robótico.

The creation of large, diverse, high-quality robot manipulation datasets is an important stepping stone on the path toward more capable and robust robotic manipulation policies. However, creating such datasets is challenging: collecting robot manipulation data in diverse environments poses logistical and safety challenges and requires substantial investments in hardware and human labour. As a result, even the most general robot manipulation policies today are mostly trained on data collected in a small number of environments with limited scene and task diversity. In this work, we introduce DROID (Distributed Robot Interaction Dataset), a diverse robot manipulation dataset with 76k demonstration trajectories or 350 hours of interaction data, collected across 564 scenes and 84 tasks by 50 data collectors in North America, Asia, and Europe over the course of 12 months. We demonstrate that training with DROID leads to policies with higher performance and improved generalization ability. We open source the full dataset, policy learning code, and a detailed guide for reproducing our robot hardware setup.

Link do artigo

https://arxiv.org/abs/2403.12945

RAFT: Adaptando o modelo de linguagem para RAG específico de domínio / RAFT: Adapting Language Model to Domain Specific RAG

Introdução ao artigo

Ao combinar as vantagens de RAG e do fine-tuning, melhora-se a capacidade do modelo de responder a perguntas em cenários "open-book" dentro do domínio; combiná-lo com a resposta no estilo CoT do RAFT ajuda a melhorar o raciocínio.

combines the benefits of RAG and fine-tuning to improve a model's ability to answer questions in "open-book" in-domain settings; combining it with RAFT's CoT-style response helps to improve reasoning.

Resumo do artigo (Abstract)

O pré-treinamento de grandes modelos de linguagem (LLMs) em grandes corpora de dados textuais tornou-se agora um paradigma padrão. Ao usar esses LLMs em muitas aplicações downstream, é comum incorporar adicionalmente novo conhecimento (por exemplo, notícias sensíveis ao tempo ou conhecimento de domínio privado) ao modelo pré-treinado, seja por meio de prompting baseado em RAG ou de fine-tuning. No entanto, a metodologia ideal para o modelo adquirir esse novo conhecimento continua sendo uma questão em aberto. Neste artigo, apresentamos o Retrieval Augmented FineTuning (RAFT), uma receita de treinamento que melhora a capacidade do modelo de responder a perguntas em cenários "open-book" dentro do domínio. No RAFT, dada uma pergunta e um conjunto de documentos recuperados, treinamos o modelo para ignorar os documentos que não ajudam a responder à pergunta, os quais chamamos de documentos distratores. O RAFT faz isso citando literalmente a sequência correta do documento relevante que ajudaria a responder à pergunta. Isso, combinado com a resposta no estilo chain-of-thought do RAFT, ajuda a melhorar a capacidade de raciocínio do modelo. Em RAG específico de domínio, o RAFT melhora consistentemente o desempenho do modelo nos conjuntos de dados PubMed, HotpotQA e Gorilla, apresentando uma receita de pós-treinamento para melhorar LLMs pré-treinados para RAG dentro do domínio. O código e a demo do RAFT estão disponíveis em código aberto em github.com/ShishirPatil/gorilla.

Pretraining Large Language Models (LLMs) on large corpora of textual data is now a standard paradigm. When using these LLMs for many downstream applications, it is common to additionally bake in new knowledge (e.g., time-critical news, or private domain knowledge) into the pretrained model either through RAG-based-prompting, or fine-tuning. However, the optimal methodology for the model to gain such new knowledge remains an open question. In this paper, we present Retrieval Augmented FineTuning (RAFT), a training recipe that improves the model's ability to answer questions in a "open-book" in-domain settings. In RAFT, given a question, and a set of retrieved documents, we train the model to ignore those documents that don't help in answering the question, which we call, distractor documents. RAFT accomplishes this by citing verbatim the right sequence from the relevant document that would help answer the question. This coupled with RAFT's chain-of-thought-style response helps improve the model's ability to reason. In domain-specific RAG, RAFT consistently improves the model's performance across PubMed, HotpotQA, and Gorilla datasets, presenting a post-training recipe to improve pre-trained LLMs to in-domain RAG. RAFT's code and demo are open-sourced at github.com/ShishirPatil/gorilla.

Link do artigo

https://arxiv.org/abs/2403.10131

Texto original

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-01b

Este texto foi organizado com um modelo GPT, portanto pode conter erros; consulte também o texto original no link abaixo. Se você encontrar algum trecho estranho ou incorreto durante a leitura, por favor avise nos comentários.

⚠️Anúncio⚠️: Este texto organizado pela comunidade coreana de usuários do PyTorch foi útil para você? Se assinar como membro, enviaremos os principais textos por e-mail! (O padrão é Weekly, mas também é possível mudar para Daily.)

[2024/03/18 ~ 03/24] Principais artigos de ML da semana (Top ML Papers of the Week)

Grok-1

Apresentação do artigo

Link do artigo

Leia mais

Otimização evolutiva de receitas de fusão de modelos / Evolutionary Optimization of Model Merging Recipes

Apresentação do artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

TacticAI: assistente de IA para táticas de futebol / TacticAI: an AI assistant for football tactics

Apresentação do artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

Uso de ferramentas em LLMs / Tool Use in LLMs

Apresentação do artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

RankPrompt: tornar modelos de linguagem melhores em raciocínio por meio de comparações passo a passo / RankPrompt: Step-by-Step Comparisons Make Language Models Better Reasoners

Introdução ao artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

LLM4Decompile: descompilando código binário com grandes modelos de linguagem / LLM4Decompile: Decompiling Binary Code with Large Language Models

Introdução ao artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

Agent-FLAN: projetando dados e métodos de ajuste eficaz de agentes para grandes modelos de linguagem / Agent-FLAN: Designing Data and Methods of Effective Agent Tuning for Large Language Models

Introdução ao artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

Quando os logits de LLMs protegidos por API vazam informações proprietárias / Logits of API-Protected LLMs Leak Proprietary Information

Introdução do artigo

Resumo(Abstract)

Link do artigo

Leia mais

DROID: Conjunto de dados em larga escala de manipulação robótica no mundo real / DROID: A Large-Scale In-The-Wild Robot Manipulation Dataset

Introdução ao artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

RAFT: Adaptando o modelo de linguagem para RAG específico de domínio / RAFT: Adapting Language Model to Domain Specific RAG

Introdução ao artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

Texto original

Leituras relacionadas

Ainda não há comentários.