22] Principais artigos de ML desta semana (Top ML Papers of the Week)

(discuss.pytorch.kr)

5 pontos por ninebow 2024-09-23 | 3 comentários | Compartilhar no WhatsApp

Traduzimos automaticamente os artigos sobre ML publicados semanalmente pela DAIR.AI.
Ao observar os artigos selecionados nesta semana, é possível identificar algumas tendências marcantes. Primeiro, as pesquisas sobre grandes modelos de linguagem (LLMs) ocupam uma parcela significativa. Artigos como 'Training LLMs to Self-Correct via RL', 'Qwen2.5 Coder' e 'A Comprehensive Evaluation of Quantized Instruction-Tuned LLMs' abordam diferentes formas de melhorar o desempenho e as aplicações dos LLMs. Isso reflete que os LLMs são atualmente um dos temas centrais da pesquisa em IA.
Em segundo lugar, há muitos estudos relacionados ao processo de raciocínio da inteligência artificial. Artigos como 'Diagram of Thought (DoT)', 'Iteration of Thought' e 'To CoT or not to CoT?' exploram em profundidade a forma de pensar ou o processo de inferência da IA. Com isso, é possível perceber os esforços para aumentar a precisão e a eficiência dos sistemas de IA.
Essas tendências podem ser explicadas por alguns fatores. Antes de tudo, os grandes modelos de linguagem despertam grande interesse tanto na indústria quanto na academia por causa de suas diversas possibilidades de aplicação e de seu alto desempenho. Em especial, várias técnicas para a capacidade de autocorreção do modelo e para a melhoria de desempenho estão sendo ativamente pesquisadas. Além disso, os estudos sobre o processo de raciocínio da IA estão ligados ao objetivo final de desenvolver uma IA com capacidades de pensamento semelhantes às humanas. Isso é considerado um elemento essencial para automatizar tarefas mais complexas e inteligentes.
Em resumo, as principais tendências dos artigos desta semana podem ser definidas como o aprimoramento do desempenho de grandes modelos de linguagem e a pesquisa sobre o processo de raciocínio da IA. Isso mostra bem em que direção a pesquisa em IA está evoluindo atualmente.

Moshi

Apresentação do artigo

Apresenta um modelo fundacional de fala-texto e uma estrutura de diálogo falado full-duplex, vários componentes do sistema, o Helium, um LLM de texto com 7B parâmetros, o Mimi, um código de áudio neural semântico-acústico com desempenho de ponta em qualidade de áudio, e uma arquitetura hierárquica multi-stream capaz de gerar conversas arbitrárias no formato fala-para-fala.

Introduces a speech-text foundation model and full-duplex spoken dialogue framework; they present several components of the systems; Helium is a 7B parameter text LLM; Mimi is a semantic-acoustic neural audio code with state-of-the-art performance on audio quality; a hierarchical multi-stream architecture that can generate arbitrary conversation in a speech-to-speech manner.

Resumo do artigo (Abstract)

Apresentamos o Moshi, um modelo fundacional de fala-texto e uma estrutura de diálogo falado full-duplex. Os sistemas atuais para diálogo por voz dependem de pipelines de componentes independentes, como detecção de atividade de voz, reconhecimento de fala, diálogo textual e síntese de fala. Essas estruturas não conseguem emular a experiência de conversas reais. Primeiro, sua complexidade provoca uma latência de vários segundos entre as interações. Segundo, como o texto é a modalidade intermediária do diálogo, informações não linguísticas que modificam o significado — como emoções ou sons não verbais — se perdem na interação. Por fim, elas dependem de uma segmentação em turnos de fala que não leva em conta sobreposição de vozes, interrupções e interjeições. O Moshi resolve todos esses problemas ao tratar o diálogo falado como geração fala-para-fala. Partindo de um backbone de modelo de linguagem textual, o Moshi gera fala como tokens a partir do quantizador residual de um codec de áudio neural, enquanto modela separadamente sua própria fala e a fala do usuário em fluxos paralelos. Isso permite remover turnos de fala explícitos e modelar dinâmicas conversacionais arbitrárias. Além disso, estendemos a geração hierárquica de tokens semânticos-para-acústicos de trabalhos anteriores para primeiro prever tokens de texto alinhados no tempo como prefixo dos tokens de áudio. Esse método de “monólogo interno” não apenas melhora significativamente a qualidade linguística da fala gerada, como também mostra como ele pode oferecer reconhecimento de fala em streaming e conversão de texto em fala. O modelo resultante é o primeiro grande modelo de linguagem falado full-duplex em tempo real, com latência teórica de 160 ms e de 200 ms na prática, e está disponível em github.com/kyutai-labs/moshi.

We introduce Moshi, a speech-text foundation model and full-duplex spoken dialogue framework. Current systems for spoken dialogue rely on pipelines of independent components, namely voice activity detection, speech recognition, textual dialogue and text-to-speech. Such frameworks cannot emulate the experience of real conversations. First, their complexity induces a latency of several seconds between interactions. Second, text being the intermediate modality for dialogue, non-linguistic information that modifies meaning— such as emotion or non-speech sounds— is lost in the interaction. Finally, they rely on a segmentation into speaker turns, which does not take into account overlapping speech, interruptions and interjections. Moshi solves these independent issues altogether by casting spoken dialogue as speech-to-speech generation. Starting from a text language model backbone, Moshi generates speech as tokens from the residual quantizer of a neural audio codec, while modeling separately its own speech and that of the user into parallel streams. This allows for the removal of explicit speaker turns, and the modeling of arbitrary conversational dynamics. We moreover extend the hierarchical semantic-to-acoustic token generation of previous work to first predict time-aligned text tokens as a prefix to audio tokens. Not only this “Inner Monologue” method significantly improves the linguistic quality of generated speech, but we also illustrate how it can provide streaming speech recognition and text-to-speech. Our resulting model is the first real-time full-duplex spoken large language model, with a theoretical latency of 160ms, 200ms in practice, and is available at github.com/kyutai-labs/moshi.

Link do artigo

https://kyutai.org/Moshi.pdf

Treinar modelos de linguagem para se autocorrigirem por meio de aprendizado por reforço / Training Language Models to Self-Correct via Reinforcement Learning

Apresentação do artigo

Desenvolve um aprendizado por reforço online multivoltas para melhorar a capacidade de autocorreção de um LLM; baseia-se inteiramente em dados autogerados; mostra que SFT é ineficaz para aprender autocorreção e sofre com incompatibilidade de distribuição entre os dados de treinamento e as respostas do modelo; propõe uma abordagem em duas etapas que primeiro otimiza o comportamento de correção e depois usa um bônus de recompensa para amplificar a autocorreção durante o treinamento; quando aplicado aos modelos Gemini 1.0 Pro e 1.5 Flash, alcança desempenho de autocorreção de ponta, melhorando a autocorreção dos modelos-base em 15,6% e 9,1%, respectivamente, nos benchmarks MATH e HumanEval.

Develops a multi-turn online reinforcement learning to improve the capabilities of an LLM to self-correct; it’s based entirely on self-generated data; SFT is shown to be ineffective at learning self-correction and suffers from distribution mismatch between training data and model responses; proposes a two-stage approach that first optimizes correction behavior and then uses a reward bonus to amplify self-correction during training; when applied to Gemini 1.0 Pro and 1.5 Flash models, it achieves state-of-the-art self-correction performance, improving the base models’ self-correction by 15.6% and 9.1% respectively on the MATH and HumanEval benchmarks.

Resumo do artigo (Abstract)

A autocorreção é uma capacidade altamente desejável dos grandes modelos de linguagem (LLMs), mas tem sido consistentemente considerada em grande parte ineficaz nos LLMs modernos. As abordagens existentes para treinar autocorreção ou exigem vários modelos ou dependem de um modelo mais capaz ou de outras formas de supervisão. Para isso, a equipe desenvolveu o SCoRe, uma abordagem de aprendizado por reforço (RL) online multivoltas que melhora significativamente a capacidade de autocorreção de um LLM usando dados inteiramente autogerados. Para construir o SCoRe, primeiro mostra que variantes de ajuste fino supervisionado (SFT) sobre rastros de correção gerados offline pelo modelo são insuficientes para incutir comportamento de autocorreção. Em particular, observa que o treinamento via SFT ou sofre com incompatibilidade de distribuição entre os dados de treinamento e as próprias respostas do modelo, ou implicitamente favorece apenas um certo modo de comportamento de correção que muitas vezes não é eficaz no momento do teste. O SCoRe enfrenta esses desafios treinando sob a própria distribuição do modelo de rastros de correção autogerados e usando regularização apropriada para direcionar o processo de aprendizado a aprender uma estratégia de autocorreção eficaz no momento do teste, em vez de simplesmente ajustar respostas de alta recompensa para um determinado prompt. Essa regularização prescreve executar uma primeira fase de RL em um modelo-base para gerar uma inicialização de política menos suscetível a colapso e, em seguida, usar um bônus de recompensa para amplificar a autocorreção durante o treinamento. Quando aplicado aos modelos Gemini 1.0 Pro e 1.5 Flash, o SCoRe atinge desempenho de autocorreção de ponta, melhorando a autocorreção dos modelos-base em 15,6% e 9,1%, respectivamente, nos benchmarks MATH e HumanEval.

Self-correction is a highly desirable capability of large language models (LLMs), yet it has consistently been found to be largely ineffective in modern LLMs. Existing approaches for training self-correction either require multiple models or rely on a more capable model or other forms of supervision. To this end, we develop a multi-turn online reinforcement learning (RL) approach, SCoRe, that significantly improves an LLM's self-correction ability using entirely self-generated data. To build SCoRe, we first show that variants of supervised fine-tuning (SFT) on offline model-generated correction traces are insufficient for instilling self-correction behavior. In particular, we observe that training via SFT either suffers from a distribution mismatch between the training data and the model's own responses or implicitly prefers only a certain mode of correction behavior that is often not effective at test time. SCoRe addresses these challenges by training under the model's own distribution of self-generated correction traces and using appropriate regularization to steer the learning process into learning a self-correction strategy that is effective at test time as opposed to simply fitting high-reward responses for a given prompt. This regularization prescribes running a first phase of RL on a base model to generate a policy initialization that is less susceptible to collapse and then using a reward bonus to amplify self-correction during training. When applied to Gemini 1.0 Pro and 1.5 Flash models, we find that SCoRe achieves state-of-the-art self-correction performance, improving the base models' self-correction by 15.6% and 9.1% respectively on the MATH and HumanEval benchmarks.

Link do artigo

https://arxiv.org/abs/2409.12917

Documento técnico do Qwen2.5-Coder / Qwen2.5-Coder Technical Report

Introdução ao artigo

Uma série de modelos incluindo 1.5B e 7B parâmetros; é construída sobre a arquitetura Qwen2.5, continuamente pré-treinada em 5,5 trilhões de tokens; alcança desempenho de ponta em mais de 10 benchmarks; inclui fortes capacidades de geração, completamento, raciocínio e reparo de código.

A series of models including 1.5B and 7B parameters; it’s built upon the Qwen2.5 architecture which is continuously pretrained on 5.5 trillion tokens; achieves state-of-the-art performance across more than 10 benchmarks; includes strong capabilities in code generation, completion, reasoning, and repairing.

Resumo do artigo (Abstract)

Este relatório apresenta a série Qwen2.5-Coder, uma grande atualização em relação à versão anterior, CodeQwen1.5. A série inclui dois modelos: Qwen2.5-Coder-1.5B e Qwen2.5-Coder-7B. Como um modelo específico para código, o Qwen2.5-Coder foi construído sobre a arquitetura Qwen2.5 e continua o pré-treinamento em um vasto corpus com mais de 5,5 trilhões de tokens. Por meio de uma criteriosa limpeza de dados, geração escalável de dados sintéticos e mistura equilibrada de dados, o Qwen2.5-Coder demonstra impressionantes capacidades de geração de código, ao mesmo tempo em que mantém versatilidade geral. O modelo foi avaliado em uma ampla gama de tarefas relacionadas a código, alcançando desempenho de ponta (SOTA) em mais de 10 benchmarks, incluindo geração, completamento, raciocínio e correção de código, superando consistentemente modelos maiores da mesma faixa de tamanho. A Unity acredita que o lançamento da série Qwen2.5-Coder não apenas ampliará as fronteiras da pesquisa em inteligência de código, mas também, por meio de sua licença permissiva, incentivará uma adoção mais ampla por desenvolvedores em aplicações do mundo real.

In this report, we introduce the Qwen2.5-Coder series, a significant upgrade from its predecessor, CodeQwen1.5. This series includes two models: Qwen2.5-Coder-1.5B and Qwen2.5-Coder-7B. As a code-specific model, Qwen2.5-Coder is built upon the Qwen2.5 architecture and continues pretrained on a vast corpus of over 5.5 trillion tokens. Through meticulous data cleaning, scalable synthetic data generation, and balanced data mixing, Qwen2.5-Coder demonstrates impressive code generation capabilities while retaining general versatility. The model has been evaluated on a wide range of code-related tasks, achieving state-of-the-art (SOTA) performance across more than 10 benchmarks, including code generation, completion, reasoning, and repair, consistently outperforming larger models of the same model size. We believe that the release of the Qwen2.5-Coder series will not only push the boundaries of research in code intelligence but also, through its permissive licensing, encourage broader adoption by developers in real-world applications.

Link do artigo

https://arxiv.org/abs/2409.12186

No Diagrama do Pensamento (DoT) / On the Diagram of Thought

Apresentação do artigo

Ao aumentar as capacidades de raciocínio dos LLMs com rigor matemático, o DAT modela o raciocínio iterativo em LLMs como a construção de um grafo acíclico direcionado, integrando proposições, críticas, refinamentos e verificações em uma estrutura unificada de DAG, o que permite capturar deduções lógicas complexas além de abordagens lineares ou baseadas em árvores.

Enhances the reasoning capabilities of LLMs through mathematical rigor; DAT models iterative reasoning in LLM as the construction of a directed acyclic graph; it integrates propositions, critiques, refinement, and verification into a unified DAG structure; this allows DoT to capture complex logical deduction beyond linear or tree-based approaches.

Resumo do artigo (Abstract)

Apresentamos o Diagram of Thought (DoT), um framework que modela o raciocínio iterativo em grandes modelos de linguagem (LLMs) como a construção de um grafo acíclico direcionado (DAG) dentro de um único modelo. Diferentemente das abordagens tradicionais que representam o raciocínio como cadeias lineares ou árvores, o DoT organiza proposições, críticas, refinamentos e verificações em uma estrutura coesa de DAG, permitindo que o modelo explore caminhos complexos de raciocínio enquanto mantém a consistência lógica. Cada nó do diagrama corresponde a uma proposição que foi proposta, criticada, refinada ou verificada, permitindo que o LLM melhore iterativamente seu raciocínio por meio de feedback em linguagem natural. Ao aproveitar a predição auto-regressiva do próximo token com tokens específicos por função, o DoT facilita transições suaves entre propor ideias e avaliá-las criticamente, oferecendo um feedback mais rico do que sinais binários. Além disso, formalizamos o framework DoT usando a Teoria dos Topos, fornecendo uma base matemática que garante consistência lógica e solidez no processo de raciocínio. Essa abordagem melhora tanto o treinamento quanto a inferência dentro de um único LLM, eliminando a necessidade de múltiplos modelos ou mecanismos externos de controle. O DoT oferece um framework conceitual para projetar modelos de próxima geração especializados em raciocínio, com ênfase em eficiência de treinamento, capacidades robustas de raciocínio e fundamentação teórica. O código está disponível em https://github.com/diagram-of-thought/diagram-of-thought.

We introduce Diagram of Thought (DoT), a framework that models iterative reasoning in large language models (LLMs) as the construction of a directed acyclic graph (DAG) within a single model. Unlike traditional approaches that represent reasoning as linear chains or trees, DoT organizes propositions, critiques, refinements, and verifications into a cohesive DAG structure, allowing the model to explore complex reasoning pathways while maintaining logical consistency. Each node in the diagram corresponds to a proposition that has been proposed, critiqued, refined, or verified, enabling the LLM to iteratively improve its reasoning through natural language feedback. By leveraging auto-regressive next-token prediction with role-specific tokens, DoT facilitates seamless transitions between proposing ideas and critically evaluating them, providing richer feedback than binary signals. Furthermore, we formalize the DoT framework using Topos Theory, providing a mathematical foundation that ensures logical consistency and soundness in the reasoning process. This approach enhances both the training and inference processes within a single LLM, eliminating the need for multiple models or external control mechanisms. DoT offers a conceptual framework for designing next-generation reasoning-specialized models, emphasizing training efficiency, robust reasoning capabilities, and theoretical grounding. The code is available at https://github.com/diagram-of-thought/diagram-of-thought.

Link do artigo

https://arxiv.org/abs/2409.10038

Agentes de engenharia de software: pesquisa, panorama e visão / Agents in Software Engineering: Survey, Landscape, and Vision

Introdução ao artigo

Fornece uma visão geral abrangente dos frameworks de agentes baseados em LLM em engenharia de software.

Provides a comprehensive overview of frameworks of LLM-based agents in software engineering.

Resumo do artigo (Abstract)

Nos últimos anos, os grandes modelos de linguagem (LLMs) alcançaram um sucesso notável e passaram a ser amplamente usados em várias tarefas downstream, especialmente em tarefas da área de engenharia de software (SE). Observamos que muitos estudos que combinam LLMs com SE empregam o conceito de agentes de forma explícita ou implícita. No entanto, ainda falta uma pesquisa aprofundada que organize o contexto de desenvolvimento dos trabalhos existentes, analise como esses trabalhos combinam tecnologias de agentes baseados em LLM para otimizar várias tarefas e esclareça o framework de agentes baseados em LLM em SE. Neste artigo, realizamos a primeira pesquisa sobre estudos que combinam agentes baseados em LLM com SE e apresentamos um framework de agentes baseados em LLM em SE que inclui três módulos-chave: percepção, memória e ação. Também resumimos os desafios atuais na combinação dessas duas áreas e propomos oportunidades futuras em resposta aos desafios existentes. Mantemos um repositório GitHub com os artigos relacionados em: https://github.com/DeepSoftwareAnalytics/Awesome-Agent4SE.

In recent years, Large Language Models (LLMs) have achieved remarkable success and have been widely used in various downstream tasks, especially in the tasks of the software engineering (SE) field. We find that many studies combining LLMs with SE have employed the concept of agents either explicitly or implicitly. However, there is a lack of an in-depth survey to sort out the development context of existing works, analyze how existing works combine the LLM-based agent technologies to optimize various tasks, and clarify the framework of LLM-based agents in SE. In this paper, we conduct the first survey of the studies on combining LLM-based agents with SE and present a framework of LLM-based agents in SE which includes three key modules: perception, memory, and action. We also summarize the current challenges in combining the two fields and propose future opportunities in response to existing challenges. We maintain a GitHub repository of the related papers at: https://github.com/DeepSoftwareAnalytics/Awesome-Agent4SE.

Link do artigo

https://arxiv.org/abs/2409.09030

Fazer ou não fazer CoT? A cadeia de pensamento ajuda principalmente em matemática e raciocínio simbólico / To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning

Introdução ao artigo

Investiga que tipos de tarefas mais se beneficiam do prompting com cadeia de pensamento (CoT); após uma meta-análise de mais de 100 artigos e várias avaliações, conclui que o CoT produz fortes ganhos de desempenho principalmente em tarefas envolvendo matemática e lógica; os autores também descobriram que a maior parte do ganho do CoT vem da melhoria da execução simbólica, mas que um resolvedor simbólico supera esse desempenho.

Investigates what kinds of tasks benefit the most from chain-of-thought (CoT) prompting; after a meta-analysis on 100+ papers and several evaluations, it finds that CoT produces strong performance benefits primarily on tasks involving math and logic; they find that most of the CoT gain comes from improving symbolic execution, but a symbolic solver outperforms it.

Resumo do artigo (Abstract)

A cadeia de pensamento (CoT) via prompting é o método de fato para extrair capacidades de raciocínio de grandes modelos de linguagem (LLMs). Mas para que tipos de tarefas esse "pensamento" extra realmente ajuda? Para analisar isso, foi realizada uma meta-análise quantitativa cobrindo mais de 100 artigos que usam CoT, além de avaliações próprias em 20 conjuntos de dados com 14 modelos. Os resultados mostram que o CoT oferece fortes ganhos de desempenho principalmente em tarefas envolvendo matemática ou lógica, com ganhos bem menores em outros tipos de tarefas. No MMLU, gerar diretamente a resposta sem CoT leva a uma acurácia quase idêntica à do CoT, a menos que a pergunta ou a resposta do modelo contenha um sinal de igual, indicando operações simbólicas e raciocínio. A partir dessa constatação, o comportamento do CoT nesses problemas é analisado separando planejamento e execução e comparando-o com LLMs aumentados por ferramentas. Grande parte do ganho do CoT vem da melhora na execução simbólica, mas ele tem desempenho inferior ao uso de um resolvedor simbólico. Os resultados indicam que o CoT pode ser aplicado de forma seletiva, mantendo o desempenho e reduzindo os custos de inferência. Além disso, eles sugerem a necessidade de ir além do CoT baseado em prompting rumo a novos paradigmas que aproveitem melhor a computação intermediária em toda a gama de aplicações de LLMs.

Chain-of-thought (CoT) via prompting is the de facto method for eliciting reasoning capabilities from large language models (LLMs). But for what kinds of tasks is this extra ``thinking'' really helpful? To analyze this, we conducted a quantitative meta-analysis covering over 100 papers using CoT and ran our own evaluations of 20 datasets across 14 models. Our results show that CoT gives strong performance benefits primarily on tasks involving math or logic, with much smaller gains on other types of tasks. On MMLU, directly generating the answer without CoT leads to almost identical accuracy as CoT unless the question or model's response contains an equals sign, indicating symbolic operations and reasoning. Following this finding, we analyze the behavior of CoT on these problems by separating planning and execution and comparing against tool-augmented LLMs. Much of CoT's gain comes from improving symbolic execution, but it underperforms relative to using a symbolic solver. Our results indicate that CoT can be applied selectively, maintaining performance while saving inference costs. Furthermore, they suggest a need to move beyond prompt-based CoT to new paradigms that better leverage intermediate computation across the whole range of LLM applications.

Link do artigo

https://arxiv.org/abs/2409.12183

Avaliação abrangente de grandes modelos de linguagem ajustados por instruções e quantizados: análise experimental até 405B / A Comprehensive Evaluation of Quantized Instruction-Tuned Large Language Models: An Experimental Analysis up to 405B

Introdução ao artigo

Ao avaliar o desempenho de LLMs ajustados por instruções em vários métodos de quantização, em modelos que vão de 7B a 405B, é possível observar que 1) quantizar um LLM maior para um tamanho semelhante ao de um LLM FP16 menor geralmente apresenta melhor desempenho na maioria dos benchmarks, 2) o desempenho varia significativamente conforme o método de quantização, o tamanho do modelo e a largura de bits, com métodos weight-only frequentemente produzindo melhores resultados em modelos maiores, e 3) a dificuldade da tarefa não impacta significativamente a degradação de acurácia causada pela quantização.

Evaluates the performance of instruction-tuned LLMs across various quantization methods on models ranging from 7B to 405B; the key findings are 1) quantizing a larger LLM to a similar size as a smaller FP16 LLM generally performs better across most benchmarks, 2) performance varies significantly with different quantization methods, model size, and bit-width, with weight-only methods often yielding better results in larger models, and 3) task difficulty does not significantly impact accuracy degradation due to quantization.

Resumo do artigo (Abstract)

Estudos anteriores avaliaram LLMs quantizados usando métricas limitadas, como perplexidade, algumas tarefas básicas de conhecimento e conjuntos de dados antigos. Além disso, modelos recentes de grande escala, como o Llama 3.1 com até 405B, não foram examinados de forma aprofundada. Este white paper avalia o desempenho de LLMs ajustados por instrução em diversos métodos de quantização (GPTQ, AWQ, SmoothQuant e FP8), em modelos que vão de 7B a 405B. Usando 13 benchmarks, o estudo avaliou o desempenho em seis tipos de tarefa: perguntas e respostas de senso comum, conhecimento e compreensão de linguagem, seguimento de instruções, detecção de alucinações, matemática e diálogo. As principais conclusões mostram que (1) quantizar um LLM maior para um tamanho semelhante ao de um LLM FP16 menor geralmente apresenta melhor desempenho na maioria dos benchmarks, exceto em detecção de alucinações e seguimento de instruções; (2) o desempenho varia significativamente conforme o método de quantização, o tamanho do modelo e a largura de bits, sendo comum que métodos somente de pesos tenham resultados melhores em modelos maiores; (3) a dificuldade da tarefa não afeta significativamente a degradação de acurácia causada pela quantização; e (4) o método de avaliação MT-Bench tem poder de discriminação limitado entre LLMs recentes de alto desempenho.

Prior research works have evaluated quantized LLMs using limited metrics such as perplexity or a few basic knowledge tasks and old datasets. Additionally, recent large-scale models such as Llama 3.1 with up to 405B have not been thoroughly examined. This paper evaluates the performance of instruction-tuned LLMs across various quantization methods (GPTQ, AWQ, SmoothQuant, and FP8) on models ranging from 7B to 405B. Using 13 benchmarks, we assess performance across six task types: commonsense Q&A, knowledge and language understanding, instruction following, hallucination detection, mathematics, and dialogue. Our key findings reveal that (1) quantizing a larger LLM to a similar size as a smaller FP16 LLM generally performs better across most benchmarks, except for hallucination detection and instruction following; (2) performance varies significantly with different quantization methods, model size, and bit-width, with weight-only methods often yielding better results in larger models; (3) task difficulty does not significantly impact accuracy degradation due to quantization; and (4) the MT-Bench evaluation method has limited discriminatory power among recent high-performing LLMs.

Link do artigo

https://arxiv.org/abs/2409.11055

Iteração do Pensamento: Aproveitando o Diálogo Interno para o Raciocínio Autônomo de Grandes Modelos de Linguagem / Iteration of Thought: Leveraging Inner Dialogue for Autonomous Large Language Model Reasoning

Introdução ao artigo

Propõe o framework Iteration of Thought (IoT) para aprimorar as respostas e a capacidade de raciocínio de LLMs com caminhos de raciocínio adaptativos; ele utiliza um agente de diálogo interno, atuando como guia, para ajustar dinamicamente os caminhos de raciocínio, o que permite exploração adaptativa entre caminhos e melhora a precisão das respostas; difere de CoT e ToT (ambos processos rígidos) porque sua geração de prompts é um processo dinâmico que permite adaptação.

Proposes the Iteration of Thought (IoT) framework to enhance the LLM responses and reasoning capabilities with adaptive reasoning paths; it leverages an inner dialogue agent, acting as a guide, to dynamically adjust reasoning paths which allows adaptive cross-path exploration and enhance response accuracy; it's different from CoT and ToT (both rigid processes) in that its prompt generation is a dynamic process that allows it to adapt.

Resumo(Abstract)

O envolvimento humano iterativo é um meio comum e eficaz de aproveitar o avançado poder de processamento de linguagem dos grandes modelos de linguagem (LLMs). Usando prompts bem estruturados de forma conversacional, usuários humanos podem influenciar efetivamente um LLM a desenvolver respostas mais ponderadas e precisas. Inspirado por essa percepção, propomos o framework Iteration of Thought (IoT) para aprimorar respostas de LLMs por meio da geração de prompts que provoquem "pensamento" em relação a uma consulta de entrada e à iteração atual da resposta de um LLM. Ao contrário de abordagens estáticas ou semiestáticas, como Chain of Thought (CoT) ou Tree of Thoughts (ToT), o IoT adapta seu caminho de raciocínio dinamicamente com base no contexto em evolução, sem gerar pensamentos exploratórios alternativos que acabam sendo descartados. Os três componentes do framework IoT são (1) um Inner Dialogue Agent (IDA), responsável por gerar prompts instrutivos e específicos ao contexto; (2) um LLM Agent (LLMA), que processa esses prompts para refinar suas respostas; e (3) um loop iterativo de prompting que implementa uma conversa entre os dois componentes anteriores. Apresentamos duas variantes do framework: Autonomous Iteration of Thought (AIoT), em que um LLM decide quando parar de iterar, e Guided Iteration of Thought (GIoT), que sempre força um número fixo de iterações. Investigamos o desempenho do IoT em vários conjuntos de dados, abrangendo tarefas complexas de raciocínio do conjunto GPQA, resolução exploratória de problemas no Game of 24, solução de puzzles no Mini Crosswords e perguntas e respostas multi-hop do conjunto HotpotQA. Nossos resultados mostram que o IoT representa um paradigma viável para o refinamento autônomo de respostas em LLMs, apresentando melhorias significativas em relação ao CoT e, assim, possibilitando sistemas de raciocínio mais adaptativos e eficientes que minimizam a intervenção humana.

Iterative human engagement is a common and effective means of leveraging the advanced language processing power of large language models (LLMs). Using well-structured prompts in a conversational manner, human users can effectively influence an LLM to develop more thoughtful and accurate responses. Motivated by this insight, we propose the Iteration of Thought (IoT) framework for enhancing LLM responses by generating "thought"-provoking prompts vis a vis an input query and the current iteration of an LLM's response. Unlike static or semi-static approaches, e.g. Chain of Thought (CoT) or Tree of Thoughts (ToT), IoT adapts its reasoning path dynamically, based on evolving context, and without generating alternate explorative thoughts which are ultimately discarded. The three components of the IoT framework are (1) an Inner Dialogue Agent (IDA) responsible for generating instructive, context-specific prompts; (2) an LLM Agent (LLMA) that processes these prompts to refine its responses; and (3) an iterative prompting loop that implements a conversation between the former two components. We introduce two variants of our framework: Autonomous Iteration of Thought (AIoT), where an LLM decides when to stop iterating, and Guided Iteration of Thought (GIoT), which always forces a fixed number iterations. We investigate the performance of IoT across various datasets, spanning complex reasoning tasks from the GPQA dataset, explorative problem-solving in Game of 24, puzzle solving in Mini Crosswords, and multi-hop question answering from the HotpotQA dataset. Our results show that IoT represents a viable paradigm for autonomous response refinement in LLMs, showcasing significant improvements over CoT and thereby enabling more adaptive and efficient reasoning systems that minimize human intervention.

Link do artigo

https://arxiv.org/abs/2409.12618

A memória de Schrödinger: grandes modelos de linguagem / Schrodinger's Memory: Large Language Models

Apresentação do artigo

Explica o mecanismo de memória dos LLMs usando o Teorema da Aproximação Universal. Também propõe uma nova abordagem para avaliar o desempenho de LLMs comparando a capacidade de memória de diferentes modelos; a arquitetura Transformer funciona como um modelo UAT de ajuste dinâmico, com forte capacidade de ajustar entradas de forma adaptativa, permitindo que os LLMs recuperem conteúdo inteiro com base em informações mínimas de entrada.

Uses the Universal Approximation Theorem to explain the memory mechanism of LLMs. It also proposes a new approach to evaluate LLM performance by comparing the memory capacities of different models; the Transformer architecture functions as a dynamic fitting UAT model, with a strong ability to adaptively fit inputs; this enables LLMs to recall entire content based on minimal input information.

Resumo do artigo (Abstract)

A memória é a base de todas as atividades humanas e, sem memória, seria quase impossível realizar qualquer tarefa no dia a dia. Com o desenvolvimento dos Large Language Models (LLMs), suas capacidades de linguagem estão se tornando cada vez mais comparáveis às dos humanos. Mas os LLMs têm memória? Com base no desempenho atual, os LLMs de fato parecem exibir memória. Então, qual é o mecanismo subjacente dessa memória? Pesquisas anteriores careciam de uma exploração aprofundada das capacidades de memória dos LLMs e da teoria subjacente. Neste artigo, usamos o Universal Approximation Theorem (UAT) para explicar o mecanismo de memória nos LLMs. Também realizamos experimentos para verificar as capacidades de memória de vários LLMs, propondo um novo método para avaliar suas habilidades com base nessa capacidade de memória. Argumentamos que a memória dos LLMs opera como a memória de Schrödinger, ou seja, ela só se torna observável quando uma memória específica é consultada. Só podemos determinar se o modelo retém uma memória com base na sua saída em resposta à consulta; caso contrário, ela permanece indeterminada. Por fim, expandimos esse conceito comparando as capacidades de memória do cérebro humano e dos LLMs, destacando as semelhanças e diferenças em seus mecanismos de operação.

Memory is the foundation of all human activities; without memory, it would be nearly impossible for people to perform any task in daily life. With the development of Large Language Models (LLMs), their language capabilities are becoming increasingly comparable to those of humans. But do LLMs have memory? Based on current performance, LLMs do appear to exhibit memory. So, what is the underlying mechanism of this memory? Previous research has lacked a deep exploration of LLMs' memory capabilities and the underlying theory. In this paper, we use Universal Approximation Theorem (UAT) to explain the memory mechanism in LLMs. We also conduct experiments to verify the memory capabilities of various LLMs, proposing a new method to assess their abilities based on these memory ability. We argue that LLM memory operates like Schr"odinger's memory, meaning that it only becomes observable when a specific memory is queried. We can only determine if the model retains a memory based on its output in response to the query; otherwise, it remains indeterminate. Finally, we expand on this concept by comparing the memory capabilities of the human brain and LLMs, highlighting the similarities and differences in their operational mechanisms.

Link do artigo

https://arxiv.org/abs/2409.10482

Fazendo jailbreak em Large Language Models com matemática simbólica / Jailbreaking Large Language Models with Symbolic Mathematics

Introdução ao artigo

Usa o GPT-4o para gerar prompts codificados matematicamente que funcionam como uma técnica eficaz de jailbreak; mostra uma taxa média de sucesso de ataque de 73,6% em 13 modelos de ponta, destacando a incapacidade dos mecanismos atuais de treinamento de segurança de generalizar para entradas codificadas matematicamente.

Uses GPT-4o to generate mathematically encoded prompts that serve as an effective jailbreaking technique; shows an average attack success rate of 73.6% across 13 state-of-the-art; this highlights the inability of existing safety training mechanisms to generalize to mathematically encoded inputs.

Resumo do artigo (Abstract)

Avanços recentes em segurança de IA levaram ao aumento dos esforços para treinar e fazer red-teaming de Large Language Models (LLMs) a fim de mitigar a geração de conteúdo inseguro. No entanto, esses mecanismos de segurança podem não ser abrangentes, deixando vulnerabilidades potenciais sem exploração. Este artigo apresenta o MathPrompt, uma nova técnica de jailbreak que explora as capacidades avançadas dos LLMs em matemática simbólica para contornar seus mecanismos de segurança. Ao codificar prompts nocivos em linguagem natural como problemas matemáticos, demonstramos uma vulnerabilidade crítica nas medidas atuais de segurança de IA. Nossos experimentos em 13 LLMs de ponta revelam uma taxa média de sucesso de ataque de 73,6%, destacando a incapacidade dos mecanismos existentes de treinamento de segurança de generalizar para entradas codificadas matematicamente. A análise dos vetores de embedding mostra uma mudança semântica substancial entre os prompts originais e os codificados, ajudando a explicar o sucesso do ataque. Este trabalho enfatiza a importância de uma abordagem holística para a segurança de IA e pede a ampliação dos esforços de red-teaming para desenvolver salvaguardas robustas para todos os tipos potenciais de entrada e seus riscos associados.

Recent advancements in AI safety have led to increased efforts in training and red-teaming large language models (LLMs) to mitigate unsafe content generation. However, these safety mechanisms may not be comprehensive, leaving potential vulnerabilities unexplored. This paper introduces MathPrompt, a novel jailbreaking technique that exploits LLMs' advanced capabilities in symbolic mathematics to bypass their safety mechanisms. By encoding harmful natural language prompts into mathematical problems, we demonstrate a critical vulnerability in current AI safety measures. Our experiments across 13 state-of-the-art LLMs reveal an average attack success rate of 73.6%, highlighting the inability of existing safety training mechanisms to generalize to mathematically encoded inputs. Analysis of embedding vectors shows a substantial semantic shift between original and encoded prompts, helping explain the attack's success. This work emphasizes the importance of a holistic approach to AI safety, calling for expanded red-teaming efforts to develop robust safeguards across all potential input types and their associated risks.

Link do artigo

https://arxiv.org/abs/2409.11445

Texto original

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-277

Este texto foi compilado com um modelo GPT e pode conter erros, então consulte também o texto original no fim do artigo! Se, durante a leitura, você encontrar algum trecho estranho ou incorreto, por favor nos avise nos comentários. 🤗

⚠️Publicidade⚠️: Este texto organizado pelo 🔥PyTorch Korea User Group🇰🇷 foi útil para você? Se se cadastrar como membro, enviaremos os principais textos por e-mail💌! (O padrão é Weekly, mas também é possível mudar para Daily.)

3 comentários

savvykang 2024-09-23

O título é de junho, mas a publicação vinculada é de setembro. Será que ficou assim por causa do preenchimento automático?

ninebow 2024-09-23

Nossa, é verdade;;; obrigado por avisar. T_T
O título deveria ser '[2024/09/16 ~ 09/22] Principais artigos de ML da semana (Top ML Papers of the Week)', mas cometi um erro ao usar o template. xguru, se por acaso você vir isso, por favor altere. 🙇‍♂️

ninebow 2024-09-23

Obrigado!!

[2024/09/16 ~ 09/22] Principais artigos de ML desta semana (Top ML Papers of the Week)

Moshi

Apresentação do artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

Treinar modelos de linguagem para se autocorrigirem por meio de aprendizado por reforço / Training Language Models to Self-Correct via Reinforcement Learning

Apresentação do artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

Documento técnico do Qwen2.5-Coder / Qwen2.5-Coder Technical Report

Introdução ao artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

No Diagrama do Pensamento (DoT) / On the Diagram of Thought

Apresentação do artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

Agentes de engenharia de software: pesquisa, panorama e visão / Agents in Software Engineering: Survey, Landscape, and Vision

Introdução ao artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

Fazer ou não fazer CoT? A cadeia de pensamento ajuda principalmente em matemática e raciocínio simbólico / To CoT or not to CoT? Chain-of-thought helps mainly on math and symbolic reasoning

Introdução ao artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

Avaliação abrangente de grandes modelos de linguagem ajustados por instruções e quantizados: análise experimental até 405B / A Comprehensive Evaluation of Quantized Instruction-Tuned Large Language Models: An Experimental Analysis up to 405B

Introdução ao artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

Iteração do Pensamento: Aproveitando o Diálogo Interno para o Raciocínio Autônomo de Grandes Modelos de Linguagem / Iteration of Thought: Leveraging Inner Dialogue for Autonomous Large Language Model Reasoning

Introdução ao artigo

Resumo(Abstract)

Link do artigo

Leia mais

A memória de Schrödinger: grandes modelos de linguagem / Schrodinger's Memory: Large Language Models

Apresentação do artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

Fazendo jailbreak em Large Language Models com matemática simbólica / Jailbreaking Large Language Models with Symbolic Mathematics

Introdução ao artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

Texto original

Leituras relacionadas

3 comentários