5 pontos por ninebow 2023-11-27 | Ainda não há comentários. | Compartilhar no WhatsApp

Visão geral

  • Traduzi automaticamente os textos sobre artigos de ML publicados semanalmente pela DAIR.AI.

  • Os artigos selecionados nesta semana apresentam principalmente tendências relacionadas a Large Language Models (LLMs), Reasoning and Attention in AI System e Artificial Intelligence in Medical Domain.

  • Em especial, o tema Reasoning and Attention in AI System se destaca fortemente. Isso reflete uma tentativa de fazer com que a inteligência artificial vá além do simples reconhecimento de padrões e adquira capacidades de raciocínio e resolução de problemas semelhantes às humanas.

  • Também merece atenção a pesquisa sobre o uso de inteligência artificial na área médica. LLMs as Collaborators for Medical Reasoning é um exemplo importante dessa área, explorando as possibilidades de aplicação de LLMs (grandes modelos de linguagem) no tratamento de dados médicos.

  • Em resumo, os artigos selecionados nesta semana mostram que houve forte foco em pesquisas voltadas ao desenvolvimento de capacidades complexas de raciocínio, mecanismos de atenção semelhantes aos humanos e aplicações de inteligência artificial na área médica, o que pode ser interpretado como um indicador importante da direção de avanço das tecnologias de IA.


Atenção de Sistema 2 (algo que você também pode precisar) / System 2 Attention (is something you might need too)

Introdução ao artigo

  • Aproveita as capacidades de raciocínio e de seguir instruções dos LLMs para decidir em que prestar atenção; regenera o contexto de entrada para incluir apenas as partes relevantes antes de aplicar atenção ao contexto regenerado para obter a resposta final do modelo, aumentando a factualidade e superando LLMs padrão baseados em atenção em tarefas como QA e problemas matemáticos de enunciado.

    Leverages the reasoning and instruction following capabilities of llms to decide what to attend to; it regenerates input context to only include relevant portions before attending to the regenerated context to elicit the final response from the model; increases factuality and outperforms standard attention-based llms on tasks such as qa and math world problems.

Resumo do artigo

  • A soft attention em grandes modelos de linguagem (LLMs) baseados em Transformer é suscetível a incorporar informações irrelevantes do contexto em suas representações latentes, o que afeta negativamente a geração do próximo token. Para ajudar a corrigir esses problemas, introduzimos a System 2 Attention (S2A), que aproveita a capacidade dos LLMs de raciocinar em linguagem natural e seguir instruções para decidir em que prestar atenção. A S2A regenera o contexto de entrada para incluir apenas as partes relevantes, antes de aplicar atenção ao contexto regenerado para obter a resposta final. Em experimentos, a S2A superou LLMs padrão baseados em atenção em três tarefas contendo opiniões ou informações irrelevantes — QA, problemas matemáticos de enunciado e geração longa —, aumentando a factualidade e a objetividade e reduzindo a bajulação.

    Soft attention in Transformer-based Large Language Models (LLMs) is susceptible to incorporating irrelevant information from the context into its latent representations, which adversely affects next token generations. To help rectify these issues, we introduce System 2 Attention (S2A), which leverages the ability of LLMs to reason in natural language and follow instructions in order to decide what to attend to. S2A regenerates the input context to only include the relevant portions, before attending to the regenerated context to elicit the final response. In experiments, S2A outperforms standard attention-based LLMs on three tasks containing opinion or irrelevant information, QA, math word problems and longform generation, where S2A increases factuality and objectivity, and decreases sycophancy.

Link do artigo

https://arxiv.org/abs/2311.11829

Leia mais

https://x.com/jaseweston/status/1726784511357157618


Avanços na arquitetura Transformer em grandes modelos de linguagem de contexto longo: uma pesquisa abrangente / Advancing Transformer Architecture in Long-Context Large Language Models: A Comprehensive Survey

Introdução ao artigo

  • Uma visão geral das metodologias para aprimorar módulos da arquitetura Transformer que otimizam capacidades de contexto longo em todas as etapas, do pré-treinamento à inferência.

    An overview of the methodologies for enhancing transformer architecture modules that optimize long-context capabilities across all stages from pre-training to inference.

Resumo do artigo

  • Os grandes modelos de linguagem (LLMs) baseados em Transformer, impulsionados pelo ChatGPT, abriram um caminho revolucionário rumo à inteligência artificial geral (AGI) e vêm sendo aplicados em diversas áreas, como bases de conhecimento, interfaces humanas e agentes dinâmicos. No entanto, existe uma limitação predominante: muitos LLMs atuais, restritos por recursos, são pré-treinados principalmente em textos curtos, o que os torna menos eficazes para prompts de contexto longo, comuns em ambientes do mundo real. Este artigo apresenta uma pesquisa abrangente focada na evolução da arquitetura de modelos em LLMs baseados em Transformer para otimizar capacidades de contexto longo em todas as etapas, do pré-treinamento à inferência. Primeiro, identifica e analisa os problemas do tratamento de entradas e saídas de contexto longo nos modelos atuais baseados em Transformer. Em seguida, oferece principalmente uma taxonomia holística para navegar pelo panorama de upgrades de Transformer na arquitetura a fim de resolver esses problemas. Depois, apresenta uma investigação sobre os elementos de avaliação amplamente usados e adaptados para LLMs de contexto longo, incluindo conjuntos de dados, métricas e modelos de referência, além de alguns impressionantes toolkits de otimização, como bibliotecas, sistemas e compiladores, para ampliar a eficiência e a eficácia dos LLMs em diferentes etapas. Por fim, discute os principais desafios e possíveis caminhos para pesquisas futuras nesse domínio. Além disso, foi criado um repositório que organiza a literatura relevante com atualizações em tempo real em https://github.com/Strivin0311/long-llms-learning.

    With the bomb ignited by ChatGPT, Transformer-based Large Language Models (LLMs) have paved a revolutionary path toward Artificial General Intelligence (AGI) and have been applied in diverse areas as knowledge bases, human interfaces, and dynamic agents. However, a prevailing limitation exists: many current LLMs, constrained by resources, are primarily pre-trained on shorter texts, rendering them less effective for longer-context prompts, commonly encountered in real-world settings. In this paper, we present a comprehensive survey focusing on the advancement of model architecture in Transformer-based LLMs to optimize long-context capabilities across all stages from pre-training to inference. We firstly delineate and analyze the problems of handling long-context input and output with the current Transformer-based models. Then, we mainly offer a holistic taxonomy to navigate the landscape of Transformer upgrades on architecture to solve these problems. Afterward, we provide the investigation on wildly used evaluation necessities tailored for long-context LLMs, including datasets, metrics, and baseline models, as well as some amazing optimization toolkits like libraries, systems, and compilers to augment LLMs' efficiency and efficacy across different stages. Finally, we further discuss the predominant challenges and potential avenues for future research in this domain. Additionally, we have established a repository where we curate relevant literature with real-time updates at https://github.com/Strivin0311/long-llms-learning.

Link do artigo

https://arxiv.org/abs/2311.12351

Leia mais

https://x.com/omarsar0/status/1727358484360945750


PaSS: amostragem especulativa paralela / PaSS: Parallel Speculative Sampling

Introdução ao artigo

  • Uma abordagem para reduzir o tempo de inferência de LLMs com base em uma variante de amostragem especulativa e decodificação paralela; alcança ganhos significativos de velocidade (até 30%) aprendendo apenas $O(d_{emb})$ parâmetros adicionais.

    Approach to reduce inference time of llms based on a variant of speculative sampling and parallel decoding; achieves significant speed-ups (up to 30%) by only learning as little as o(d_emb) additional parameters.

Resumo do artigo

  • Escalar o tamanho dos modelos de linguagem para dezenas de bilhões de parâmetros levou a um desempenho impressionante em uma ampla gama de tarefas. Na geração, esses modelos são usados de forma autorregressiva, exigindo uma passagem forward para cada token gerado e, portanto, a leitura de todo o conjunto de parâmetros da memória. Esse acesso à memória constitui o principal gargalo da geração, e ele piora à medida que o tamanho do modelo aumenta. Além disso, executar uma passagem forward para vários tokens em paralelo muitas vezes leva quase o mesmo tempo que para apenas um token. Essas duas observações levaram ao desenvolvimento do speculative sampling, em que um segundo modelo menor é usado para rascunhar alguns tokens, que depois são validados ou rejeitados usando uma única passagem forward do modelo grande. Infelizmente, esse método exige dois modelos que compartilhem o mesmo tokenizador, o que limita sua adoção. Como alternativa, propomos usar decodificação paralela como uma forma de rascunhar múltiplos tokens a partir de um único modelo, sem custo computacional nem necessidade de um segundo modelo. Nossa abordagem requer apenas um token de entrada adicional que marca as palavras que serão geradas simultaneamente. Mostramos um desempenho promissor (até $30%$ de ganho de velocidade), exigindo apenas algo como $O(d_{emb})$ de parâmetros adicionais.

    Scaling the size of language models to tens of billions of parameters has led to impressive performance on a wide range of tasks. At generation, these models are used auto-regressively, requiring a forward pass for each generated token, and thus reading the full set of parameters from memory. This memory access forms the primary bottleneck for generation and it worsens as the model size increases. Moreover, executing a forward pass for multiple tokens in parallel often takes nearly the same time as it does for just one token. These two observations lead to the development of speculative sampling, where a second smaller model is used to draft a few tokens, that are then validated or rejected using a single forward pass of the large model. Unfortunately, this method requires two models that share the same tokenizer and thus limits its adoption. As an alternative, we propose to use parallel decoding as a way to draft multiple tokens from a single model with no computational cost, nor the need for a second model. Our approach only requires an additional input token that marks the words that will be generated simultaneously. We show promising performance (up to $30%$ speed-up) while requiring only as few as $O(d_{emb})$ additional parameters.

Link do artigo

https://arxiv.org/abs/2311.13581

Leia mais

https://x.com/omarsar0/status/1728066181796418009


Mirasol3B: modelo autorregressivo multimodal para modalidades alinhadas no tempo e contextuais / Mirasol3B: A Multimodal Autoregressive model for time-aligned and contextual modalities

Introdução ao artigo

  • Um modelo multimodal para aprendizado com áudio, vídeo e texto, que separa a modelagem multimodal em modelos autorregressivos distintos e especializados; as entradas são processadas de acordo com as modalidades; essa abordagem consegue lidar com vídeos mais longos em comparação com outros modelos e supera abordagens de ponta em benchmark de video QA, long video QA e áudio-vídeo-texto.

    A multimodal model for learning across audio, video, and text which decouples the multimodal modeling into separate, focused autoregressive models; the inputs are processed according to the modalities; this approach can handle longer videos compared to other models and it outperforms state-of-the-art approach on video qa, long video qa, and audio-video-text benchmark.

Resumo do artigo

  • Um dos principais desafios do aprendizado multimodal é a necessidade de combinar modalidades heterogêneas (por exemplo, vídeo, áudio e texto). Por exemplo, vídeo e áudio são obtidos em taxas muito mais altas do que texto e ficam aproximadamente alinhados no tempo. Muitas vezes, eles não estão sincronizados com o texto, que vem como contexto global, como um título ou uma descrição. Além disso, entradas de vídeo e áudio têm volumes muito maiores e crescem conforme a duração do vídeo aumenta, o que naturalmente exige mais capacidade computacional dedicada a essas modalidades e torna mais difícil modelar dependências de longo alcance. Aqui, desacoplamos a modelagem multimodal, dividindo-a em modelos autorregressivos separados e especializados, que processam as entradas de acordo com as características de cada modalidade. Propomos um modelo multimodal chamado Mirasol3B, composto por um componente autorregressivo para as modalidades sincronizadas no tempo (áudio e vídeo) e um componente autorregressivo para as modalidades de contexto, que não estão necessariamente alinhadas no tempo, mas ainda são sequenciais. Para lidar com as longas sequências das entradas de vídeo e áudio, propomos particionar ainda mais as sequências de vídeo e áudio em trechos consecutivos e processar suas representações de forma autorregressiva. Para isso, propomos um mecanismo Combiner, que modela conjuntamente as informações de áudio e vídeo dentro de uma janela temporal. O Combiner aprende a extrair características de áudio e vídeo de sinais espaço-temporais brutos e depois aprende a fundir essas características, produzindo representações compactas, porém expressivas, para cada trecho. Essa abordagem alcança desempenho de ponta em benchmarks multimodais bem estabelecidos, superando modelos muito maiores. Ela também lida de forma eficaz com a alta demanda computacional das entradas de mídia ao aprender representações compactas, controlar o comprimento da sequência das representações de características de áudio e vídeo e modelar suas dependências ao longo do tempo.

    One of the main challenges of multimodal learning is the need to combine heterogeneous modalities (e.g., video, audio, text). For example, video and audio are obtained at much higher rates than text and are roughly aligned in time. They are often not synchronized with text, which comes as a global context, e.g., a title, or a description. Furthermore, video and audio inputs are of much larger volumes, and grow as the video length increases, which naturally requires more compute dedicated to these modalities and makes modeling of long-range dependencies harder. We here decouple the multimodal modeling, dividing it into separate, focused autoregressive models, processing the inputs according to the characteristics of the modalities. We propose a multimodal model, called Mirasol3B, consisting of an autoregressive component for the time-synchronized modalities (audio and video), and an autoregressive component for the context modalities which are not necessarily aligned in time but are still sequential. To address the long-sequences of the video-audio inputs, we propose to further partition the video and audio sequences in consecutive snippets and autoregressively process their representations. To that end, we propose a Combiner mechanism, which models the audio-video information jointly within a timeframe. The Combiner learns to extract audio and video features from raw spatio-temporal signals, and then learns to fuse these features producing compact but expressive representations per snippet. Our approach achieves the state-of-the-art on well established multimodal benchmarks, outperforming much larger models. It effectively addresses the high computational demand of media inputs by both learning compact representations, controlling the sequence length of the audio-video feature representations, and modeling their dependencies in time.

Link do artigo

https://arxiv.org/abs/2311.05698

Leia mais

https://x.com/GoogleAI/status/1724553024088191211


Orca 2: Ensinando modelos pequenos de linguagem a raciocinar / Orca 2: Teaching Small Language Models How to Reason

Apresentação do artigo

  • Propõe uma abordagem para ensinar modelos menores de linguagem a raciocinar; especificamente, considera-se que o LM usa técnicas de raciocínio, como processamento passo a passo, recordar e depois gerar, recordar-raciocinar-gerar, extrair-gerar e resposta direta; supera modelos de tamanho semelhante e atinge níveis de desempenho semelhantes ou melhores do que os de modelos 5 a 10 vezes maiores, conforme avaliado em tarefas complexas que testam capacidades avançadas de raciocínio em configurações zero-shot.

    Proposes an approach to teach smaller language models to reason; specifically, the lm is thought to use reasoning techniques, such as step-by-step processing, recall-then-generate, recall-reason-generate, extract-generate, and direct-answer methods; outperforms models of similar size and attains performance levels similar or better to those of models 5-10x larger, as assessed on complex tasks that test advanced reasoning abilities in zero-shot settings.

Resumo do artigo

  • O Orca 1 aprende a partir de sinais ricos, como rastros de explicação, o que lhe permite superar modelos convencionais ajustados por instrução em benchmarks como BigBench Hard e AGIEval. No Orca 2, continuamos explorando como sinais de treinamento aprimorados podem melhorar as capacidades de raciocínio de LMs menores. Pesquisas sobre o treinamento de LMs pequenos frequentemente se apoiaram em aprendizado por imitação para replicar a saída de modelos mais capazes. No entanto, argumentamos que uma ênfase excessiva na imitação pode limitar o potencial dos modelos menores. Buscamos ensinar LMs pequenos a empregar diferentes estratégias de solução para diferentes tarefas, potencialmente distintas das usadas pelo modelo maior. Por exemplo, enquanto modelos maiores podem fornecer uma resposta direta para uma tarefa complexa, modelos menores podem não ter a mesma capacidade. No Orca 2, ensinamos ao modelo várias técnicas de raciocínio (passo a passo, recuperar e depois gerar, recuperar-raciocinar-gerar, resposta direta etc.). Mais importante ainda, buscamos ajudar o modelo a aprender a determinar a estratégia de solução mais eficaz para cada tarefa. Avaliamos o Orca 2 usando um conjunto abrangente de 15 benchmarks diversos (correspondendo a aproximadamente 100 tarefas e mais de 36.000 prompts únicos). O Orca 2 supera significativamente modelos de tamanho semelhante e atinge níveis de desempenho semelhantes ou melhores do que os de modelos 5 a 10 vezes maiores, conforme avaliado em tarefas complexas que testam capacidades avançadas de raciocínio em cenários zero-shot. Tornamos os pesos do Orca 2 publicamente disponíveis em aka.ms/orca-lm para apoiar pesquisas sobre o desenvolvimento, a avaliação e o alinhamento de LMs menores.

    O Orca 1 aprende a partir de sinais ricos, como rastros de explicação, o que lhe permite superar modelos convencionais ajustados por instrução em benchmarks como BigBench Hard e AGIEval. No Orca 2, continuamos explorando como sinais de treinamento aprimorados podem melhorar as capacidades de raciocínio de LMs menores. Pesquisas sobre o treinamento de LMs pequenos frequentemente se apoiaram em aprendizado por imitação para replicar a saída de modelos mais capazes. Sustentamos que uma ênfase excessiva na imitação pode restringir o potencial dos modelos menores. Buscamos ensinar LMs pequenos a empregar diferentes estratégias de solução para diferentes tarefas, potencialmente distintas da usada pelo modelo maior. Por exemplo, enquanto modelos maiores podem fornecer uma resposta direta para uma tarefa complexa, modelos menores podem não ter a mesma capacidade. No Orca 2, ensinamos ao modelo várias técnicas de raciocínio (passo a passo, recuperar e depois gerar, recuperar-raciocinar-gerar, resposta direta etc.). Mais importante ainda, buscamos ajudar o modelo a aprender a determinar a estratégia de solução mais eficaz para cada tarefa. Avaliamos o Orca 2 usando um conjunto abrangente de 15 benchmarks diversos (correspondendo a aproximadamente 100 tarefas e mais de 36.000 prompts únicos). O Orca 2 supera significativamente modelos de tamanho semelhante e atinge níveis de desempenho semelhantes ou melhores do que os de modelos 5 a 10 vezes maiores, conforme avaliado em tarefas complexas que testam capacidades avançadas de raciocínio em cenários zero-shot. disponibilizamos publicamente os pesos do Orca 2 em aka.ms/orca-lm para apoiar pesquisas sobre o desenvolvimento, a avaliação e o alinhamento de LMs menores

Link do artigo

https://arxiv.org/abs/2311.11045

Leia mais

https://x.com/omarsar0/status/1726990087399915995


GPQA: benchmark de perguntas e respostas à prova de Google em nível de pós-graduação / GPQA: A Graduate-Level Google-Proof Q&A Benchmark

Introdução do artigo

  • Propõe um benchmark de QA à prova de Google em nível de pós-graduação, composto por 448 questões de múltipla escolha escritas por especialistas de domínio em biologia, física e química. O baseline mais forte baseado em GPT-4 alcança 39% de acurácia, e esse benchmark oferece experimentos de supervisão escalável que podem ajudar a obter informações confiáveis e verdadeiras de sistemas de IA modernos que superam as capacidades humanas.

    Propõe um benchmark de QA à prova de Google em nível de pós-graduação composto por 448 questões de múltipla escolha escritas por especialistas de domínio em biologia, física e química; o baseline mais forte baseado em GPT-4 alcança 39% de acurácia; esse benchmark oferece experimentos de supervisão escalável que podem ajudar a obter informações confiáveis e verdadeiras de sistemas modernos de IA que superam as capacidades humanas.

Resumo do artigo

  • Apresenta o GPQA, um dataset desafiador composto por 448 questões de múltipla escolha elaboradas por especialistas em biologia, física e química. Especialistas que já concluíram ou estão cursando doutorado nessas áreas alcançam 65% de acurácia (74% ao desconsiderar erros claramente identificados em retrospecto), enquanto validadores altamente qualificados, mas não especialistas, obtiveram apenas 34% mesmo com acesso irrestrito à web por mais de 30 minutos em média (ou seja, as questões foram verificadas para serem “à prova de Google”). Trata-se também de um conjunto de problemas difícil para os sistemas de IA mais avançados, com o baseline mais forte baseado em GPT-4 alcançando apenas 39% de acurácia. Para usar sistemas de IA futuros na resposta a perguntas muito difíceis — por exemplo, no desenvolvimento de novo conhecimento científico —, será necessário criar métodos escaláveis de supervisão que permitam aos humanos supervisionar seus resultados, o que pode ser difícil mesmo quando os supervisores são qualificados e bem informados. A dificuldade do GPQA tanto para não especialistas qualificados quanto para sistemas de IA de fronteira deve permitir experimentos realistas de supervisão escalável, o que pode ajudar a criar formas para que especialistas humanos obtenham de maneira confiável informações verdadeiras de sistemas de IA que superem as capacidades humanas.

    We present GPQA, a challenging dataset of 448 multiple-choice questions written by domain experts in biology, physics, and chemistry. We ensure that the questions are high-quality and extremely difficult: experts who have or are pursuing PhDs in the corresponding domains reach 65% accuracy (74% when discounting clear mistakes the experts identified in retrospect), while highly skilled non-expert validators only reach 34% accuracy, despite spending on average over 30 minutes with unrestricted access to the web (i.e., the questions are "Google-proof"). The questions are also difficult for state-of-the-art AI systems, with our strongest GPT-4 based baseline achieving 39% accuracy. If we are to use future AI systems to help us answer very hard questions, for example, when developing new scientific knowledge, we need to develop scalable oversight methods that enable humans to supervise their outputs, which may be difficult even if the supervisors are themselves skilled and knowledgeable. The difficulty of GPQA both for skilled non-experts and frontier AI systems should enable realistic scalable oversight experiments, which we hope can help devise ways for human experts to reliably get truthful information from AI systems that surpass human capabilities.

Link do artigo

https://arxiv.org/abs/2311.12022

Leia mais

https://x.com/idavidrein/status/1727033002234909060


Acendendo a inteligência da linguagem: o guia do mochileiro da inferência Chain-of-Thought (CoT) aos agentes de linguagem / Igniting Language Intelligence: The Hitchhiker's Guide From Chain-of-Thought Reasoning to Language Agents

Apresentação do artigo

  • Um resumo da inferência CoT (Chain-of-Thought), dos mecanismos fundamentais que sustentam as técnicas de CoT (Chain-of-Thought) e de sua aplicação a frameworks de agentes de linguagem.

    Summary of cot reasoning, foundational mechanics underpinning cot techniques, and their application to language agent frameworks.

Resumo do artigo

  • Os modelos de linguagem de grande escala (LLMs) transformaram drasticamente o campo da inteligência de linguagem, como demonstrado por seu forte desempenho empírico em uma ampla gama de tarefas complexas de raciocínio. Além disso, provas teóricas revelaram novas capacidades de raciocínio, oferecendo uma forte demonstração de habilidades cognitivas avançadas em contextos linguísticos. Um elemento crucial para sua notável eficácia ao lidar com tarefas complexas de raciocínio é o uso das técnicas de raciocínio chain-of-thought (CoT), que exigem a formulação de etapas intermediárias no processo de chegar a uma resposta. A abordagem de raciocínio CoT não apenas mostrou proficiência em ampliar o desempenho de raciocínio, mas também em melhorar interpretabilidade, controlabilidade e flexibilidade. À luz dessas vantagens, esforços recentes de pesquisa expandiram as metodologias de raciocínio CoT para impulsionar o desenvolvimento de agentes de linguagem autônomos, capazes de seguir instruções em linguagem natural e executar ações com habilidade em diferentes ambientes. Este artigo de survey organiza uma discussão aprofundada que atravessa dimensões importantes de pesquisa, incluindo: (i) os mecanismos fundamentais das técnicas de CoT, com foco em esclarecer o contexto e a justificativa por trás de sua eficácia; (ii) a mudança de paradigma no CoT; e (iii) o rápido crescimento dos agentes de linguagem fortalecidos por abordagens CoT. As direções futuras de pesquisa abrangem explorações em generalização, eficiência, customização, escalabilidade e segurança. Este artigo se dirige a um público amplo, desde iniciantes que buscam conhecimento abrangente sobre raciocínio CoT e agentes de linguagem até pesquisadores experientes interessados nos mecanismos fundamentais e em participar das discussões mais avançadas sobre esses temas. Um repositório com os artigos relacionados está disponível em https://github.com/Zoeyyao27/CoT-Igniting-Agent.

    Large language models (LLMs) have dramatically enhanced the field of language intelligence, as demonstrably evidenced by their formidable empirical performance across a spectrum of complex reasoning tasks. Additionally, theoretical proofs have illuminated their emergent reasoning capabilities, providing a compelling showcase of their advanced cognitive abilities in linguistic contexts. Critical to their remarkable efficacy in handling complex reasoning tasks, LLMs leverage the intriguing chain-of-thought (CoT) reasoning techniques, obliging them to formulate intermediate steps en route to deriving an answer. The CoT reasoning approach has not only exhibited proficiency in amplifying reasoning performance but also in enhancing interpretability, controllability, and flexibility. In light of these merits, recent research endeavors have extended CoT reasoning methodologies to nurture the development of autonomous language agents, which adeptly adhere to language instructions and execute actions within varied environments. This survey paper orchestrates a thorough discourse, penetrating vital research dimensions, encompassing: (i) the foundational mechanics of CoT techniques, with a focus on elucidating the circumstances and justification behind its efficacy; (ii) the paradigm shift in CoT; and (iii) the burgeoning of language agents fortified by CoT approaches. Prospective research avenues envelop explorations into generalization, efficiency, customization, scaling, and safety. This paper caters to a wide audience, including beginners seeking comprehensive knowledge of CoT reasoning and language agents, as well as experienced researchers interested in foundational mechanics and engaging in cutting-edge discussions on these topics. A repository for the related papers is available at https://github.com/Zoeyyao27/CoT-Igniting-Agent.

Link do artigo

https://arxiv.org/abs/2311.11797

Leia mais

https://x.com/omarsar0/status/1726803725220487277


GAIA: benchmark para assistentes gerais de IA / GAIA: a benchmark for General AI Assistants

Apresentação do artigo

  • De acordo com um benchmark para assistentes gerais de IA composto por perguntas do mundo real que exigem um conjunto de habilidades fundamentais, como raciocínio, processamento multimodal, navegação na web e proficiência geral no uso de ferramentas, os participantes humanos obtiveram 92%, enquanto o GPT-4 com plugins marcou 15%.

    A benchmark for general ai assistants consisting of real-world questions that require a set of fundamental abilities such as reasoning, multimodal handling, web browsing, and generally tool-use proficiency; shows that human respondents obtain 92% vs. 15% for gpt-4 equipped with plugins.

Resumo do artigo

  • Apresentamos o GAIA, um benchmark para assistentes gerais de IA que, se resolvido, representaria um marco na pesquisa em IA. O GAIA propõe perguntas do mundo real que exigem um conjunto de habilidades fundamentais, como raciocínio, tratamento multimodal, navegação na web e, de modo geral, proficiência no uso de ferramentas. As perguntas do GAIA são conceitualmente simples para humanos, mas desafiadoras para a maioria das IAs avançadas. Mostramos que respondentes humanos obtêm 92% de acerto, contra 15% do GPT-4 equipado com plugins. Essa notável disparidade de desempenho contrasta com a tendência recente de LLMs superarem humanos em tarefas que exigem habilidades profissionais, como em direito ou química. A filosofia do GAIA se afasta da tendência atual dos benchmarks de IA, que sugere mirar tarefas cada vez mais difíceis para humanos. Partimos da hipótese de que o advento da Inteligência Artificial Geral (AGI) depende da capacidade de um sistema demonstrar robustez semelhante à de um humano médio diante dessas questões. Usando a metodologia do GAIA, elaboramos 466 perguntas e suas respostas. Estamos divulgando as perguntas e mantendo as respostas de 300 delas para alimentar um leaderboard disponível em https://huggingface.co/gaia-benchmark.

    We introduce GAIA, a benchmark for General AI Assistants that, if solved, would represent a milestone in AI research. GAIA proposes real-world questions that require a set of fundamental abilities such as reasoning, multi-modality handling, web browsing, and generally tool-use proficiency. GAIA questions are conceptually simple for humans yet challenging for most advanced AIs: we show that human respondents obtain 92% vs. 15% for GPT-4 equipped with plugins. This notable performance disparity contrasts with the recent trend of LLMs outperforming humans on tasks requiring professional skills in e.g. law or chemistry. GAIA's philosophy departs from the current trend in AI benchmarks suggesting to target tasks that are ever more difficult for humans. We posit that the advent of Artificial General Intelligence (AGI) hinges on a system's capability to exhibit similar robustness as the average human does on such questions. Using GAIA's methodology, we devise 466 questions and their answer. We release our questions while retaining answers to 300 of them to power a leader-board available at https://huggingface.co/gaia-benchmark.

Link do artigo

https://arxiv.org/abs/2311.12983

Leia mais

https://x.com/ThomasScialom/status/1727683993045201339


MedAgents: grandes modelos de linguagem como colaboradores para raciocínio médico zero-shot / MedAgents: Large Language Models as Collaborators for Zero-shot Medical Reasoning

Apresentação do artigo

  • Propõe um framework colaborativo de múltiplas rodadas para a área médica que aproveita agentes baseados em LLM com role-playing para aumentar a proficiência e as capacidades de raciocínio dos LLMs.

    Proposes a collaborative multi-round framework for the medical domain that leverages role-playing llm-based agents to enhance llm proficiency and reasoning capabilities.

Resumo do artigo

  • Os grandes modelos de linguagem (LLMs), apesar de seu progresso notável em vários domínios gerais, enfrentam barreiras significativas na medicina e na saúde. Esse campo apresenta desafios únicos, como terminologias específicas de domínio e o raciocínio sobre conhecimento especializado. Para enfrentar esses problemas persistentes, a Unity propõe um novo framework de Colaboração Multidisciplinar (MC) para o domínio médico, que aproveita agentes baseados em LLM com role-playing que participam de uma discussão colaborativa em múltiplas rodadas, aumentando assim a proficiência e as capacidades de raciocínio dos LLMs. Esse framework sem necessidade de treinamento e interpretável abrange cinco etapas críticas: reunir especialistas de domínio, propor análises individuais, resumir essas análises em um relatório, iterar as discussões até que se alcance um consenso e, por fim, tomar uma decisão. Nosso trabalho foca particularmente no cenário zero-shot, e nossos resultados em nove conjuntos de dados (MedQA, MedMCQA, PubMedQA e seis subtarefas do MMLU) estabelecem que o framework MC proposto se destaca em minerar e aproveitar a expertise médica presente nos LLMs, além de expandir suas capacidades de raciocínio. Com base nesses resultados, conduzimos ainda uma avaliação humana para identificar e categorizar erros comuns dentro do nosso método, bem como estudos de ablação voltados a compreender o impacto de vários fatores no desempenho geral. Nosso código pode ser encontrado em \url{https://github.com/gersteinlab/MedAgents}.

    Large Language Models (LLMs), despite their remarkable progress across various general domains, encounter significant barriers in medicine and healthcare. This field faces unique challenges such as domain-specific terminologies and the reasoning over specialized knowledge. To address these obstinate issues, we propose a novel Multi-disciplinary Collaboration (MC) framework for the medical domain that leverages role-playing LLM-based agents who participate in a collaborative multi-round discussion, thereby enhancing LLM proficiency and reasoning capabilities. This training-free and interpretable framework encompasses five critical steps: gathering domain experts, proposing individual analyses, summarising these analyses into a report, iterating over discussions until a consensus is reached, and ultimately making a decision. Our work particularly focuses on the zero-shot scenario, our results on nine data sets (MedQA, MedMCQA, PubMedQA, and six subtasks from MMLU) establish that our proposed MC framework excels at mining and harnessing the medical expertise in LLMs, as well as extending its reasoning abilities. Based on these outcomes, we further conduct a human evaluation to pinpoint and categorize common errors within our method, as well as ablation studies aimed at understanding the impact of various factors on overall performance. Our code can be found at \url{https://github.com/gersteinlab/MedAgents}.

Link do artigo

https://arxiv.org/abs/2311.10537

Leia mais

https://x.com/omarsar0/status/1726627951582511135


Camelos em um clima em mudança: aprimorando a adaptação de LMs com Tulu 2 / Camels in a Changing Climate: Enhancing LM Adaptation with Tulu 2

Apresentação do artigo

  • Apresenta uma família aprimorada de modelos Tulu para avançar o entendimento e as boas práticas de adaptação de modelos de linguagem pré-treinados a tarefas downstream e preferências dos usuários; a família Tulu 2 alcança desempenho de ponta entre modelos abertos e iguala ou supera o desempenho do GPT-3.5-Turbo-0301 em vários benchmarks.

    Presents a suite of improved tülu models for advancing the understanding and best practices of adapting pretrained language models to downstream tasks and user preferences; tülu 2 suite achieves state-of-the-art performance among open models and matches or exceeds the performance of gpt-3.5-turbo-0301 on several benchmarks.

Resumo do artigo

  • Desde o lançamento do Tülu [Wang et al., 2023b], os recursos abertos para instruction tuning evoluíram rapidamente, desde modelos-base melhores até novas técnicas de fine-tuning. Os autores testam e incorporam vários desses avanços ao Tülu, resultando no Tülu 2, uma coleção de modelos Tülu aprimorados para avançar o entendimento e as boas práticas de adaptação de modelos de linguagem pré-treinados a tarefas downstream e preferências dos usuários. Concretamente, são lançados: (1) Tülu-V2-mix, uma coleção aprimorada de conjuntos de dados de instruções de alta qualidade; (2) Tülu 2, modelos LLAMA-2 ajustados no mix V2; (3) Tülu 2+DPO, modelos Tülu 2 treinados com direct preference optimization (DPO), incluindo o maior modelo treinado com DPO até hoje (Tülu 2+DPO 70B); (4) CODE Tülu 2, modelos CODE LLAMA ajustados no mix V2, que superam o CODE LLAMA e sua variante ajustada para instruções, CODE LLAMA-Instruct. A avaliação sob múltiplas perspectivas mostra que a família Tülu 2 alcança desempenho de ponta entre modelos abertos e iguala ou supera o desempenho do GPT-3.5-turbo-0301 em vários benchmarks. Todos os checkpoints, dados, código de treinamento e código de avaliação são disponibilizados para facilitar futuros esforços abertos de adaptação de grandes modelos de linguagem.

    Since the release of Tülu [Wang et al., 2023b], open resources for instruction tuning have developed quickly, from better base models to new finetuning techniques. We test and incorporate a number of these advances into Tülu , resulting in Tülu 2, a suite of improved Tülu models for advancing the understanding and best practices of adapting pretrained language models to downstream tasks and user preferences. Concretely, we release: (1) Tülu-V2-mix, an improved collection of high-quality instruction datasets; (2) Tülu 2, LLAMA-2 models finetuned on the V2 mixture; (3) Tülu 2+DPO, Tülu 2 models trained with direct preference optimization (DPO), including the largest DPO-trained model to date (Tülu 2+DPO 70B); (4) CODE Tülu 2, CODE LLAMA models finetuned on our V2 mix that outperform CODE LLAMA and its instruction-tuned variant, CODE LLAMA-Instruct. Our evaluation from multiple perspectives shows that the Tülu 2 suite achieves state-of-the-art performance among open models and matches or exceeds the performance of GPT-3.5-turbo-0301 on several benchmarks. We release all the checkpoints, data, training and evaluation code to facilitate future open efforts on adapting large language models.

Link do artigo

https://arxiv.org/abs/2311.10702

Leia mais

https://x.com/natolambert/status/1727350301131518454


Texto original

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-a05

Ainda não há comentários.

Ainda não há comentários.