3 pontos por ninebow 2024-04-29 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Tentamos traduzir automaticamente os textos sobre artigos de ML publicados semanalmente pela DAIR.AI.

  • Ao observar os artigos submetidos nesta semana, parece que a maioria está focada em modelos de linguagem de próxima geração (Large Language Models, LLMs) e suas áreas de aplicação. Especificamente, "Make Your LLM Fully Utilize the Context", "Graph Machine Learning in the Era of LLMs", "Self-Evolution of LLMs" e "Naturalized Execution Tuning (NExT)" tratam de pesquisas sobre o avanço e os métodos de otimização dos LLMs, além de novas áreas de aplicação. Isso reflete a crescente importância e o potencial de uso dos LLMs no campo recente da inteligência artificial.

  • O avanço dos LLMs é importante porque esses modelos mostram excelente desempenho não apenas em processamento de linguagem natural (Natural Language Processing, NLP), mas também na execução de várias tarefas multimodais. Por exemplo, o artigo "Make Your LLM Fully Utilize the Context" explora como os LLMs podem aproveitar ao máximo o contexto fornecido para extrair e interpretar informações com mais precisão. Além disso, "Graph Machine Learning in the Era of LLMs" pesquisa como o aprendizado com dados baseados em grafos pode ser aprimorado por meio de LLMs, o que ajuda bastante na compreensão de relações e padrões complexos.

  • Essa tendência sugere que o papel dos LLMs no campo da inteligência artificial não se limita apenas à compreensão e geração de linguagem, mas está se expandindo para a resolução de problemas mais ampla e para novas áreas de aplicação. Isso pode ser visto como parte do esforço dos pesquisadores para explorar diversos aspectos da inteligência artificial e, em especial, desenvolver modelos capazes de compreender e usar melhor a linguagem humana. Além disso, essa tendência de pesquisa reforça a perspectiva de que o uso de LLMs em vários setores continuará a aumentar no futuro.

[IMG] [2024/04/22 ~ 04/28] Principais artigos de ML da semana (Top ML Papers of the Week)|1028x618


Relatório técnico do Phi-3: um modelo de linguagem altamente capaz rodando localmente no seu celular / Phi-3 Technical Report: A Highly Capable Language Model Locally on Your Phone

Introdução do artigo

O phi-3-mini, um novo modelo de linguagem com 3,8B parâmetros treinado com 3,3 trilhões de tokens, foi relatado como competitivo com Mixtral 8x7B e GPT-3.5; tem comprimento de contexto padrão de 4K, mas também inclui uma versão estendida para 128K (phi-mini-128K); combina dados da web fortemente filtrados e dados sintéticos para treinar o modelo de 3,8B; e também apresenta resultados de modelos de 7B e 14B treinados com 4,8T tokens (phi-3-small e phi-3-medium).

A new 3.8B parameter language model called phi-3-mini trained on 3.3 trillion tokens and is reported to rival Mixtral 8x7B and GPT-3.5; has a default context length of 4K but also includes a version that is extended to 128K (phi-mini-128K); combines heavily filtered web data and synthetic data to train the 3.8B models; it also reports results on 7B and 14B models trained on 4.8T tokens (phi-3-small and phi-3-medium).

Resumo do artigo (Abstract)

Apresentamos o phi-3-mini, um modelo de linguagem com 3,8 bilhões de parâmetros treinado com 3,3 trilhões de tokens, cujo desempenho geral, medido tanto por benchmarks acadêmicos quanto por testes internos, rivaliza com o de modelos como Mixtral 8x7B e GPT-3.5 (por exemplo, o phi-3-mini atinge 69% no MMLU e 8,38 no MT-bench), apesar de ser pequeno o bastante para ser implantado em um celular. A inovação está inteiramente no nosso conjunto de dados de treinamento, uma versão ampliada daquele usado no phi-2, composto por dados da web fortemente filtrados e dados sintéticos. O modelo também foi adicionalmente alinhado para robustez, segurança e formato de chat. Também fornecemos alguns resultados iniciais de escalonamento de parâmetros com modelos de 7B e 14B treinados com 4,8T tokens, chamados phi-3-small e phi-3-medium, ambos significativamente mais capazes que o phi-3-mini (por exemplo, respectivamente 75% e 78% no MMLU, e 8,7 e 8,9 no MT-bench).

We introduce phi-3-mini, a 3.8 billion parameter language model trained on 3.3 trillion tokens, whose overall performance, as measured by both academic benchmarks and internal testing, rivals that of models such as Mixtral 8x7B and GPT-3.5 (e.g., phi-3-mini achieves 69% on MMLU and 8.38 on MT-bench), despite being small enough to be deployed on a phone. The innovation lies entirely in our dataset for training, a scaled-up version of the one used for phi-2, composed of heavily filtered web data and synthetic data. The model is also further aligned for robustness, safety, and chat format. We also provide some initial parameter-scaling results with a 7B and 14B models trained for 4.8T tokens, called phi-3-small and phi-3-medium, both significantly more capable than phi-3-mini (e.g., respectively 75% and 78% on MMLU, and 8.7 and 8.9 on MT-bench).

Link do artigo

https://arxiv.org/abs/2404.14219

Leia mais

https://discuss.pytorch.kr/t/…

https://x.com/omarsar0/status/1782780923806699716


OpenELM: família eficiente de modelos de linguagem com framework open source de treinamento e inferência / OpenELM: An Efficient Language Model Family with Open-source Training and Inference Framework

Introdução do artigo

Um novo modelo de linguagem aberto que emprega uma estratégia de escalonamento por camada para alocar parâmetros de forma eficiente, levando a melhor eficiência e precisão; está disponível em diferentes tamanhos, como 270M, 450M, 1.1B e 3B; alcança uma melhora de 2,36% em precisão em comparação com o OLMo, exigindo 2× menos tokens de pré-treinamento.

A new open language model that employs a layer-wise scaling strategy to efficiently allocate parameters and leading to better efficiency and accuracy; comes with different sizes such as 270M, 450M, 1.1B, and 3B; achieves a 2.36% improvement in accuracy compared to OLMo while requiring 2× fewer pre-training tokens.

Resumo do artigo (Abstract)

A reprodutibilidade e a transparência dos grandes modelos de linguagem são cruciais para avançar a pesquisa aberta, garantir a confiabilidade dos resultados e possibilitar investigações sobre vieses de dados e de modelos, bem como riscos potenciais. Para isso, lançamos o OpenELM, um modelo de linguagem aberto de última geração. O OpenELM usa uma estratégia de escalonamento por camada para alocar parâmetros de forma eficiente dentro de cada camada do modelo transformer, resultando em maior precisão. Por exemplo, com um orçamento de aproximadamente 1 bilhão de parâmetros, o OpenELM apresenta uma melhoria de 2,36% na precisão em comparação com o OLMo, ao mesmo tempo em que requer $2\times$ menos tokens de pré-treinamento. Diferentemente de práticas anteriores, que forneciam apenas os pesos do modelo e o código de inferência e faziam o pré-treinamento em conjuntos de dados privados, este lançamento inclui o framework completo para treinar e avaliar o modelo de linguagem em conjuntos de dados publicamente disponíveis, incluindo logs de treinamento, múltiplos checkpoints e configurações de pré-treinamento. Também lançamos código para converter os modelos para a biblioteca MLX para inferência e ajuste fino em dispositivos Apple. Este lançamento abrangente tem como objetivo capacitar e fortalecer a comunidade de pesquisa aberta, abrindo caminho para futuros esforços de pesquisa aberta. Nosso código-fonte, juntamente com os pesos de modelos pré-treinados e as receitas de treinamento, está disponível em \url{https://github.com/apple/corenet}. Além disso, os modelos podem ser encontrados no HuggingFace em: \url{https://huggingface.co/apple/OpenELM}.

A reprodutibilidade e a transparência dos grandes modelos de linguagem são cruciais para avançar a pesquisa aberta, garantir a confiabilidade dos resultados e possibilitar investigações sobre vieses de dados e de modelos, bem como riscos potenciais. Para isso, lançamos o OpenELM, um modelo de linguagem aberto de última geração. O OpenELM usa uma estratégia de escalonamento por camada para alocar parâmetros de forma eficiente dentro de cada camada do modelo transformer, resultando em maior precisão. Por exemplo, com um orçamento de aproximadamente um bilhão de parâmetros, o OpenELM apresenta uma melhoria de 2,36% na precisão em comparação com o OLMo, ao mesmo tempo em que requer $2\times$ menos tokens de pré-treinamento. Diferentemente de práticas anteriores, que forneciam apenas os pesos do modelo e o código de inferência e faziam o pré-treinamento em conjuntos de dados privados, este lançamento inclui o framework completo para treinamento e avaliação do modelo de linguagem em conjuntos de dados publicamente disponíveis, incluindo logs de treinamento, múltiplos checkpoints e configurações de pré-treinamento. Também lançamos código para converter modelos para a biblioteca MLX para inferência e ajuste fino em dispositivos Apple. Este lançamento abrangente tem como objetivo capacitar e fortalecer a comunidade de pesquisa aberta, abrindo caminho para futuros esforços de pesquisa aberta. Nosso código-fonte, juntamente com os pesos de modelos pré-treinados e as receitas de treinamento, está disponível em \url{https://github.com/apple/corenet}. Além disso, os modelos podem ser encontrados no HuggingFace em: \url{https://huggingface.co/apple/OpenELM}.

Link do artigo

https://arxiv.org/abs/2404.14619

Leia mais

https://discuss.pytorch.kr/t/apple-270m-3b-openelm/4204

https://github.com/apple/corenet

https://huggingface.co/apple/OpenELM

https://x.com/rasbt/status/1783480053847736713


Snowflake Arctic

Introdução ao artigo

Um LLM de código aberto (licença Apache 2.0) que usa uma arquitetura transformer híbrida Dense-MoE exclusiva; afirma ter desempenho equivalente ao Llama3 70B em métricas empresariais como programação (HumanEval+ e MBPP+), SQL (Spider) e seguimento de instruções (IFEval), usando 17 vezes menos orçamento computacional que o Llama3 70B; o custo computacional do treinamento é de aproximadamente menos de 2 milhões de dólares (menos de 3 mil semanas-GPU).

Um LLM de código aberto (licença Apache 2.0) que usa uma arquitetura transformer híbrida Dense-MoE exclusiva; tem desempenho comparável ao Llama3 70B em métricas empresariais como programação (HumanEval+ & MBPP+), SQL (Spider) e seguimento de instruções (IFEval); afirma usar 17x menos orçamento computacional que o Llama 3 70B; o custo computacional do treinamento é de aproximadamente menos de $2 milhões (menos de 3 mil semanas-GPU).

Link do artigo

https://snowflake.com/blog/…

Leia mais

https://discuss.pytorch.kr/t/…

https://x.com/omarsar0/status/1783176059694821632


Fazer seu LLM utilizar totalmente o contexto / Make Your LLM Fully Utilize the Context

Introdução ao artigo

Apresenta uma abordagem para superar o problema de se perder no meio, comum em LLMs. Aplica um procedimento explícito de treinamento “intensivo em informação” ao Mistral-7B para permitir que o LLM utilize plenamente o contexto. Ele aproveita um conjunto de dados sintético em que a resposta exige 1) percepção detalhada de informações em um segmento curto (∼128 tokens) dentro de um longo contexto sintetizado (4K−32K tokens) e 2) integração e raciocínio sobre informações de dois ou mais segmentos curtos. O modelo resultante, FILM-7B (Fill-in-the-Middle), mostra que consegue recuperar de forma robusta informações de diferentes posições em sua janela de contexto de 32K.

Apresenta uma abordagem para superar o desafio de se perder no meio, comum em LLMs. Aplica um procedimento explícito de treinamento "intensivo em informação" ao Mistral-7B para permitir que o LLM utilize plenamente o contexto. Ele aproveita um conjunto de dados sintético em que a resposta requer percepção detalhada de informações em um segmento curto (∼128 tokens) dentro de um longo contexto sintetizado (4K−32K tokens), e 2) a integração e o raciocínio sobre informações de dois ou mais segmentos curtos. O modelo resultante, FILM-7B (Fill-in-the-Middle), mostra que consegue recuperar de forma robusta informações de diferentes posições em sua janela de contexto de 32K.

Resumo(Abstract)

Embora muitos modelos de linguagem de grande escala (LLMs) contemporâneos consigam processar entradas longas, eles ainda têm dificuldade para utilizar plenamente as informações dentro de um contexto longo, um problema conhecido como lost in the middle. Nossa hipótese é que isso decorre de supervisão explícita insuficiente durante o treinamento com contexto longo, o que não enfatiza que qualquer posição em um contexto longo pode conter informação crucial. Com base nessa intuição, este estudo apresenta o treinamento information-intensive (IN2), uma solução puramente orientada por dados para superar o problema de lost-in-the-middle. Especificamente, o treinamento IN2 utiliza um conjunto de dados sintético de perguntas e respostas em contexto longo, no qual a resposta exige (1) percepção detalhada de informações em um segmento curto (~128 tokens) dentro de um contexto longo sintético (4K-32K tokens) e (2) integração e raciocínio com informações de dois ou mais segmentos curtos. Ao aplicar esse treinamento intensivo em informação ao Mistral-7B, apresentamos o FILM-7B (FILl-in-the-Middle). Para avaliar de forma abrangente a capacidade do FILM-7B de utilizar contextos longos, projetamos três tarefas de probing que abrangem vários estilos de contexto (documento, código e contexto de dados estruturados) e padrões de recuperação de informação (recuperação direta, reversa e bidirecional). Os resultados de probing demonstram que o FILM-7B consegue recuperar com robustez informações de diferentes posições dentro de sua janela de contexto de 32K. Além dessas tarefas de probing, o FILM-7B melhora significativamente o desempenho em tarefas reais de contexto longo (por exemplo, pontuação F1 de 23.5->26.9 no NarrativeQA), ao mesmo tempo em que mantém desempenho comparável em tarefas de contexto curto (por exemplo, acurácia de 59.3->59.2 no MMLU). Link do GitHub: https://github.com/microsoft/FILM.

While many contemporary large language models (LLMs) can process lengthy input, they still struggle to fully utilize information within the long context, known as the lost-in-the-middle challenge. We hypothesize that it stems from insufficient explicit supervision during the long-context training, which fails to emphasize that any position in a long context can hold crucial information. Based on this intuition, our study presents information-intensive (IN2) training, a purely data-driven solution to overcome lost-in-the-middle. Specifically, IN2 training leverages a synthesized long-context question-answer dataset, where the answer requires (1) fine-grained information awareness on a short segment (~128 tokens) within a synthesized long context (4K-32K tokens), and (2) the integration and reasoning of information from two or more short segments. Through applying this information-intensive training on Mistral-7B, we present FILM-7B (FILl-in-the-Middle). To thoroughly assess the ability of FILM-7B for utilizing long contexts, we design three probing tasks that encompass various context styles (document, code, and structured-data context) and information retrieval patterns (forward, backward, and bi-directional retrieval). The probing results demonstrate that FILM-7B can robustly retrieve information from different positions in its 32K context window. Beyond these probing tasks, FILM-7B significantly improves the performance on real-world long-context tasks (e.g., 23.5->26.9 F1 score on NarrativeQA), while maintaining a comparable performance on short-context tasks (e.g., 59.3->59.2 accuracy on MMLU). Github Link: https://github.com/microsoft/FILM.

Link do artigo

https://arxiv.org/abs/2404.16811

Leia mais

https://github.com/microsoft/FILM

https://x.com/omarsar0/status/1783905514578980949


FineWeb

Introdução ao artigo

Um conjunto de dados web em larga escala contendo 15 trilhões de tokens para treinamento de modelos de linguagem; filtra e remove duplicações do CommonCrawl entre 2013 e 2024, com o objetivo de melhorar a qualidade dos dados.

A large-scale web dataset containing 15 trillion tokens for training language models; filters and deduplicates CommonCrawl between 2013 and 2024 and the goal is to improve the quality of the data.

Link do artigo

https://huggingface.co/datasets/HuggingFaceFW/fineweb

Leia mais

https://x.com/gui_penedo/status/1781953413938557276


Editores genéticos baseados em IA / AI-powered Gene Editors

Introdução ao artigo

Um sistema de IA impulsionado por um LLM treinado em diversidade biológica em larga escala alcança edição de precisão do genoma humano por meio do design de editores genéticos programáveis.

Achieves precision editing of the human genome with a programmable gene editor design with an AI system powered by an LLM trained on biological diversity at scale.

Link do artigo

https://www.biorxiv.org/content/10.1101/2024.04.22.590591v1

Leia mais

https://x.com/thisismadani/status/1782510590839406904


AutoCrawler: agente web de compreensão progressiva para geração de web crawlers / AutoCrawler: A Progressive Understanding Web Agent for Web Crawler Generation

Introdução ao artigo

Combina LLMs com crawlers para ajudar crawlers a lidar com ambientes web diversos e em constante mudança com mais eficiência; o agente de web crawler aproveita a estrutura hierárquica do HTML para compreensão progressiva; emprega operações top-down e de step-back e utiliza a estrutura em árvore do DOM para gerar um crawler completo e executável.

Combines LLMs with crawlers with the goal of helping crawlers handle diverse and changing web environments more efficiently; the web crawler agent leverages the hierarchical structure of HTML for progressive understanding; employs top-down and step-back operations, and leverages the DOM tree structure, to generate a complete and executable crawler.

Resumo(Abstract)

A automação web é uma técnica importante para executar tarefas complexas na web ao automatizar ações comuns, aumentar a eficiência operacional e reduzir a necessidade de intervenção manual. Métodos tradicionais, como wrappers, sofrem com adaptabilidade e escalabilidade limitadas quando enfrentam um novo site. Por outro lado, agentes generativos impulsionados por grandes modelos de linguagem (LLMs) apresentam desempenho e reutilização ruins em cenários de mundo aberto. Neste trabalho, apresentamos uma tarefa de geração de crawlers para páginas web de informação vertical e o paradigma de combinar LLMs com crawlers, o que ajuda os crawlers a lidar com ambientes web diversos e em constante mudança de forma mais eficiente. Propomos o AutoCrawler, um framework de dois estágios que aproveita a estrutura hierárquica do HTML para uma compreensão progressiva. Por meio de operações top-down e step-back, o AutoCrawler pode aprender com ações errôneas e podar continuamente o HTML para gerar ações melhores. Realizamos experimentos abrangentes com vários LLMs e demonstramos a eficácia do nosso framework. Os recursos deste artigo podem ser encontrados em \url{https://github.com/EZ-hwh/AutoCrawler}

Web automation is a significant technique that accomplishes complicated web tasks by automating common web actions, enhancing operational efficiency, and reducing the need for manual intervention. Traditional methods, such as wrappers, suffer from limited adaptability and scalability when faced with a new website. On the other hand, generative agents empowered by large language models (LLMs) exhibit poor performance and reusability in open-world scenarios. In this work, we introduce a crawler generation task for vertical information web pages and the paradigm of combining LLMs with crawlers, which helps crawlers handle diverse and changing web environments more efficiently. We propose AutoCrawler, a two-stage framework that leverages the hierarchical structure of HTML for progressive understanding. Through top-down and step-back operations, AutoCrawler can learn from erroneous actions and continuously prune HTML for better action generation. We conduct comprehensive experiments with multiple LLMs and demonstrate the effectiveness of our framework. Resources of this paper can be found at \url{https://github.com/EZ-hwh/AutoCrawler}

Link do artigo

https://arxiv.org/abs/2404.12753

Leia mais

https://github.com/EZ-hwh/AutoCrawler

https://x.com/omarsar0/status/1782462314983071757


Graph Machine Learning na era dos grandes modelos de linguagem (LLMs) / Graph Machine Learning in the Era of Large Language Models (LLMs)

Apresentação do artigo

Oferece uma visão abrangente dos avanços mais recentes em Graph ML na era dos LLMs; cobre os desenvolvimentos recentes em Graph ML, como os LLMs podem aprimorar recursos de grafos e como podem lidar com problemas como OOD e heterogeneidade de grafos.

Provides a comprehensive overview of the latest advancements for Graph ML in the era of LLMs; covers the recent developments in Graph ML, how LLM can enhance graph features, and how it can address issues such as OOD and graph heterogeneity.

Resumo (Abstract)

Os grafos desempenham um papel importante na representação de relações complexas em diversos domínios, como redes sociais, grafos de conhecimento e descoberta molecular. Com o surgimento do deep learning, as Graph Neural Networks (GNNs) emergiram como um pilar central do Graph Machine Learning (Graph ML), facilitando a representação e o processamento de estruturas em grafo. Recentemente, os LLMs demonstraram capacidades sem precedentes em tarefas de linguagem e vêm sendo amplamente adotados em uma variedade de aplicações, como visão computacional e sistemas de recomendação. Esse sucesso notável também despertou interesse na aplicação de LLMs ao domínio dos grafos. Esforços crescentes vêm explorando o potencial dos LLMs para avançar a generalização, a transferibilidade e a capacidade de few-shot learning do Graph ML. Ao mesmo tempo, os grafos, especialmente os grafos de conhecimento, são ricos em conhecimento factual confiável, que pode ser usado para aprimorar as capacidades de raciocínio dos LLMs e potencialmente amenizar limitações como alucinações e falta de explicabilidade. Dado o rápido progresso dessa linha de pesquisa, é necessária uma revisão sistemática que resuma os avanços mais recentes do Graph ML na era dos LLMs, a fim de oferecer uma compreensão aprofundada para pesquisadores e profissionais. Portanto, nesta survey, primeiro revisamos os desenvolvimentos recentes em Graph ML. Em seguida, exploramos como os LLMs podem ser utilizados para melhorar a qualidade das características dos grafos, reduzir a dependência de dados rotulados e enfrentar desafios como heterogeneidade de grafos e generalização out-of-distribution (OOD). Depois disso, analisamos como os grafos podem aprimorar os LLMs, destacando sua capacidade de melhorar o pré-treinamento e a inferência de LLMs. Além disso, investigamos várias aplicações e discutimos possíveis direções futuras nesse campo promissor.

Graphs play an important role in representing complex relationships in various domains like social networks, knowledge graphs, and molecular discovery. With the advent of deep learning, Graph Neural Networks (GNNs) have emerged as a cornerstone in Graph Machine Learning (Graph ML), facilitating the representation and processing of graph structures. Recently, LLMs have demonstrated unprecedented capabilities in language tasks and are widely adopted in a variety of applications such as computer vision and recommender systems. This remarkable success has also attracted interest in applying LLMs to the graph domain. Increasing efforts have been made to explore the potential of LLMs in advancing Graph ML's generalization, transferability, and few-shot learning ability. Meanwhile, graphs, especially knowledge graphs, are rich in reliable factual knowledge, which can be utilized to enhance the reasoning capabilities of LLMs and potentially alleviate their limitations such as hallucinations and the lack of explainability. Given the rapid progress of this research direction, a systematic review summarizing the latest advancements for Graph ML in the era of LLMs is necessary to provide an in-depth understanding to researchers and practitioners. Therefore, in this survey, we first review the recent developments in Graph ML. We then explore how LLMs can be utilized to enhance the quality of graph features, alleviate the reliance on labeled data, and address challenges such as graph heterogeneity and out-of-distribution (OOD) generalization. Afterward, we delve into how graphs can enhance LLMs, highlighting their abilities to enhance LLM pre-training and inference. Furthermore, we investigate various applications and discuss the potential future directions in this promising field.

Link do artigo

https://arxiv.org/abs/2404.14928

Leia mais

https://x.com/omarsar0/status/1783171591020392886


Survey sobre a autoevolução de grandes modelos de linguagem / A Survey on Self-Evolution of Large Language Models

Introdução ao artigo

Fornece uma survey abrangente sobre abordagens de autoevolução em LLMs.

Provides a comprehensive survey on self-evolution approaches in LLMs.

Resumo(Abstract)

Os grandes modelos de linguagem (LLMs) avançaram significativamente em vários campos e em aplicações de agentes inteligentes. No entanto, os LLMs atuais, que aprendem com supervisão humana ou de modelos externos, são caros e podem enfrentar tetos de desempenho à medida que a complexidade e a diversidade das tarefas aumentam. Para resolver esse problema, abordagens de autoevolução que permitem aos LLMs adquirir, refinar e aprender autonomamente com experiências geradas pelo próprio modelo estão crescendo rapidamente. Esse novo paradigma de treinamento, inspirado no processo humano de aprendizagem experiencial, oferece o potencial de escalar os LLMs rumo à superinteligência. Neste trabalho, apresentamos uma pesquisa abrangente sobre abordagens de autoevolução em LLMs. Primeiro, propomos um framework conceitual para a autoevolução e descrevemos o processo evolutivo como ciclos iterativos compostos por quatro fases: aquisição de experiência, refinamento da experiência, atualização e avaliação. Em segundo lugar, categorizamos os objetivos de evolução de LLMs e agentes baseados em LLM; em seguida, resumimos a literatura e fornecemos uma taxonomia e insights para cada módulo. Por fim, identificamos os desafios existentes e propomos direções futuras para melhorar os frameworks de autoevolução, oferecendo aos pesquisadores insights críticos para acelerar o desenvolvimento de LLMs autoevolutivos.

Large language models (LLMs) have significantly advanced in various fields and intelligent agent applications. However, current LLMs that learn from human or external model supervision are costly and may face performance ceilings as task complexity and diversity increase. To address this issue, self-evolution approaches that enable LLM to autonomously acquire, refine, and learn from experiences generated by the model itself are rapidly growing. This new training paradigm inspired by the human experiential learning process offers the potential to scale LLMs towards superintelligence. In this work, we present a comprehensive survey of self-evolution approaches in LLMs. We first propose a conceptual framework for self-evolution and outline the evolving process as iterative cycles composed of four phases: experience acquisition, experience refinement, updating, and evaluation. Second, we categorize the evolution objectives of LLMs and LLM-based agents; then, we summarize the literature and provide taxonomy and insights for each module. Lastly, we pinpoint existing challenges and propose future directions to improve self-evolution frameworks, equipping researchers with critical insights to fast-track the development of self-evolving LLMs.

Link do artigo

https://arxiv.org/abs/2404.14387

Leia mais

https://x.com/omarsar0/status/1782777977526231440


NExT: ensinando grandes modelos de linguagem a raciocinar sobre execução de código / NExT: Teaching Large Language Models to Reason about Code Execution

Apresentação do artigo

Treina um LLM para adquirir a capacidade de inspecionar os rastros de execução de programas e raciocinar sobre o comportamento em tempo de execução por meio de cadeias de pensamento sintéticas; melhora a taxa de correção de um modelo PaLM 2 em MBPP e Human em 26,1% e 14,3%; o modelo também mostra que consegue generalizar para cenários desconhecidos.

Trains an LLM to have the ability to inspect the execution traced of programs and reason about run-time behavior via synthetic chain-of-thought rationales; improves the fix rate of a PaLM 2 model on MBPP and Human by 26.1% and 14.3%; the model also shows that it can generalize to unknown scenarios.

Resumo do artigo (Abstract)

Uma habilidade fundamental entre desenvolvedores humanos é a capacidade de entender e raciocinar sobre a execução de programas. Por exemplo, um programador pode simular mentalmente a execução de código em linguagem natural para depurar e corrigir código (também conhecido como rubber duck debugging). No entanto, os grandes modelos de linguagem (LLMs) para código geralmente são treinados na forma textual superficial dos programas e, por isso, podem carecer de uma compreensão semântica de como os programas são executados em tempo de execução. Para resolver esse problema, propomos o NExT, um método para ensinar LLMs a inspecionar os rastros de execução de programas (estados variáveis das linhas executadas) e raciocinar sobre seu comportamento em tempo de execução por meio de lógicas de cadeia de pensamento (CoT). Especificamente, o NExT usa autoaprendizado para inicializar um conjunto sintético de treinamento de raciocínios conscientes da execução que levam a soluções corretas para a tarefa (por exemplo, programas corrigidos) sem a trabalhosa anotação manual. Experimentos em tarefas de reparo de programas com base em MBPP e HumanEval demonstram que o NExT melhora a taxa de correção de um modelo PaLM 2 em 26,1% e 14,3% absolutos, respectivamente, com qualidade de raciocínio significativamente melhor, como verificado por métricas automatizadas e avaliadores humanos. Nosso modelo também pode generalizar para cenários em que rastros de programa estão ausentes no momento do teste.

A fundamental skill among human developers is the ability to understand and reason about program execution. As an example, a programmer can mentally simulate code execution in natural language to debug and repair code (aka. rubber duck debugging). However, large language models (LLMs) of code are typically trained on the surface textual form of programs, thus may lack a semantic understanding of how programs execute at run-time. To address this issue, we propose NExT, a method to teach LLMs to inspect the execution traces of programs (variable states of executed lines) and reason about their run-time behavior through chain-of-thought (CoT) rationales. Specifically, NExT uses self-training to bootstrap a synthetic training set of execution-aware rationales that lead to correct task solutions (e.g., fixed programs) without laborious manual annotation. Experiments on program repair tasks based on MBPP and HumanEval demonstrate that NExT improves the fix rate of a PaLM 2 model, by 26.1% and 14.3% absolute, respectively, with significantly improved rationale quality as verified by automated metrics and human raters. Our model can also generalize to scenarios where program traces are absent at test-time.

Link do artigo

https://arxiv.org/abs/2404.14662

Leia mais

https://x.com/AnsongNi/status/1783311827390070941


Texto original

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-b1c


Este texto foi resumido com um modelo GPT, então pode haver partes incorretas; consulte também o texto original no final da página! Se, durante a leitura, você encontrar algum trecho estranho ou incorreto, por favor avise nos comentários.

⚠️Publicidade⚠️: Este texto organizado pela Comunidade Coreana de Usuários de PyTorch foi útil para você? Se se cadastrar como membro, enviaremos os principais textos por e-mail! (O padrão é Weekly, mas também é possível mudar para Daily.)

Ainda não há comentários.

Ainda não há comentários.