[2023/09/25 ~ 10/01] Principais artigos de ML desta semana (Top ML Papers of the Week)
(discuss.pytorch.kr)Visão geral
- Fizemos uma tradução automática do artigo sobre os papers de ML publicados semanalmente pela DAIR.AI.
- Os artigos desta semana parecem estar majoritariamente focados em LLMs (Large Language Models). Entre eles, há diversos temas, como melhorias em algoritmos de eficiência de processo de LLMs em vários ambientes, Graph Neural Prompting para LLMs e aplicação de processos de raciocínio lógico.
- Entre os artigos selecionados desta semana, trabalhos como 'Boolformer' e 'Vision Transformers Need Registers' também mostram a tendência de pesquisas avançando em convergência com outras áreas de IA.
- Isso mostra que o avanço da tecnologia de IA não envolve apenas explorar cada área individualmente, mas também integrar múltiplos campos para buscar novas abordagens e soluções.
A maldição da reversão / The Reversal Curse
Introdução ao artigo
- Descobre que redes neurais treinadas com frases no formato “a é b” não generalizam automaticamente para a direção inversa, “b é a”, isto é, a maldição da reversão; demonstra esse efeito ao fazer fine-tuning de redes neurais em afirmações fictícias e comprova sua robustez em diferentes tamanhos e famílias de modelos. #llm-reasoning
Finds that llms trained on sentences of the form “a is b” will not automatically generalize to the reverse direction “b is a”, i.e., the reversal curse; shows the effect through finetuning llms on fictitious statements and demonstrating its robustness across model sizes and model families.
Link do artigo
https://owainevans.github.io/reversal_curse.pdf
Leia mais
https://x.com/OwainEvans_UK/status/1705285631520407821
Escalonamento eficaz de contexto longo em modelos fundacionais / Effective Long-Context Scaling of Foundation Models
Introdução ao artigo
- Propõe uma variante
70bque já consegue superar o desempenho geral dogpt-3.5-turbo-16kem um conjunto de tarefas de contexto longo. Isso inclui um procedimento de instruction tuning com boa relação custo-benefício que não exige dados longos de instruções anotados por humanos. #1b-context-window #100k-context-windowPropose a 70b variant that can already surpass gpt-3.5-turbo-16k’s overall performance on a suite of long-context tasks. this involves a cost-effective instruction tuning procedure that does not require human-annotated long instruction data.
Resumo do artigo
- Apresentamos uma série de LLMs de contexto longo que suportam janelas de contexto efetivas de até 32.768 tokens. Nossa série de modelos foi construída por meio de pré-treinamento contínuo a partir do Llama 2, com sequências de treinamento mais longas e um conjunto de dados no qual textos longos são sobreamostrados. Realizamos uma avaliação extensa em modelagem de linguagem, tarefas sintéticas de sondagem de contexto e uma ampla variedade de benchmarks de pesquisa. Nesses benchmarks, nossos modelos alcançam melhorias consistentes na maioria das tarefas regulares e ganhos significativos em tarefas de contexto longo em relação ao Llama 2. Notavelmente, com um procedimento de instruction tuning de boa relação custo-benefício que não requer dados longos de instruções anotados por humanos, a variante 70B já pode superar o desempenho geral do gpt-3.5-turbo-16k em um conjunto de tarefas de contexto longo. Além desses resultados, fornecemos uma análise aprofundada dos componentes individuais do nosso método. Examinamos em detalhe os position encodings do Llama e discutimos suas limitações na modelagem de dependências longas. Também analisamos o impacto de várias escolhas de design no processo de pré-treinamento, incluindo a mistura de dados e o currículo de treinamento de comprimentos de sequência. Nossos experimentos de ablação sugerem que ter abundância de textos longos no conjunto de pré-treinamento não é o fator-chave para alcançar desempenho forte, e verificamos empiricamente que o pré-treinamento contínuo com contexto longo é mais eficiente e tem efeito semelhante em comparação com o pré-treinamento do zero com sequências longas.
We present a series of long-context LLMs that support effective context windows of up to 32,768 tokens. Our model series are built through continual pretraining from Llama 2 with longer training sequences and on a dataset where long texts are upsampled. We perform extensive evaluation on language modeling, synthetic context probing tasks, and a wide range of research benchmarks. On research benchmarks, our models achieve consistent improvements on most regular tasks and significant improvements on long-context tasks over Llama 2. Notably, with a cost-effective instruction tuning procedure that does not require human-annotated long instruction data, the 70B variant can already surpass gpt-3.5-turbo-16k's overall performance on a suite of long-context tasks. Alongside these results, we provide an in-depth analysis on the individual components of our method. We delve into Llama's position encodings and discuss its limitation in modeling long dependencies. We also examine the impact of various design choices in the pretraining process, including the data mix and the training curriculum of sequence lengths -- our ablation experiments suggest that having abundant long texts in the pretrain dataset is not the key to achieving strong performance, and we empirically verify that long context continual pretraining is more efficient and similarly effective compared to pretraining from scratch with long sequences.
Link do artigo
https://arxiv.org/abs/2309.16039
Leia mais
https://x.com/omarsar0/status/1707780482178400261
Prompting neural em grafos com grandes modelos de linguagem / Graph Neural Prompting with Large Language Models
Introdução ao artigo
- Propõe um método plug-and-play para ajudar LLMs pré-treinados a aprender conhecimento útil a partir de grafos de conhecimento (Knowledge Graphs, KGs); inclui vários elementos de design, como um encoder padrão de graph neural network, um módulo de pooling cross-modality, um projetor de domínio e um objetivo de previsão de links com auto-supervisão. #knowledge-graph
Proposes a plug-and-play method to assist pre-trained llms in learning beneficial knowledge from knowledge graphs (kgs); includes various designs, including a standard graph neural network encoder, a cross-modality pooling module, a domain projector, and a self-supervised link prediction objective.
Resumo do artigo
- Os grandes modelos de linguagem (LLMs) têm demonstrado uma notável capacidade de generalização, com desempenho excepcional em várias tarefas de modelagem de linguagem. No entanto, eles ainda apresentam limitações inerentes para capturar e retornar com precisão conhecimento fundamentado. Embora trabalhos anteriores tenham explorado o uso de grafos de conhecimento para aprimorar a modelagem de linguagem por meio de treinamento conjunto e arquiteturas de modelo personalizadas, aplicar isso a LLMs é problemático devido ao grande número de parâmetros e ao alto custo computacional. Além disso, como aproveitar LLMs pré-treinados e evitar treinar um modelo personalizado do zero continua sendo uma questão em aberto. Neste trabalho, propomos o Graph Neural Prompting (GNP), um novo método plug-and-play para ajudar LLMs pré-treinados a aprender conhecimento útil a partir de KGs. O GNP abrange vários componentes, incluindo um codificador padrão de rede neural em grafo, um módulo de pooling de modalidade cruzada, um projetor de domínio e um objetivo de predição de links auto-supervisionado. Experimentos extensivos em múltiplos conjuntos de dados demonstram a superioridade do GNP tanto em tarefas de raciocínio de senso comum quanto biomédico, em diferentes tamanhos e configurações de LLM.
> Large Language Models (LLMs) have shown remarkable generalization capability with exceptional performance in various language modeling tasks. However, they still exhibit inherent limitations in precisely capturing and returning grounded knowledge. While existing work has explored utilizing knowledge graphs to enhance language modeling via joint training and customized model architectures, applying this to LLMs is problematic owing to their large number of parameters and high computational cost. In addition, how to leverage the pre-trained LLMs and avoid training a customized model from scratch remains an open question. In this work, we propose Graph Neural Prompting (GNP), a novel plug-and-play method to assist pre-trained LLMs in learning beneficial knowledge from KGs. GNP encompasses various designs, including a standard graph neural network encoder, a cross-modality pooling module, a domain projector, and a self-supervised link prediction objective. Extensive experiments on multiple datasets demonstrate the superiority of GNP on both commonsense and biomedical reasoning tasks across different LLM sizes and settings.
Link do artigo
https://arxiv.org/abs/2309.15427
Leia mais
https://x.com/omarsar0/status/1707211751354212382
Vision Transformers precisam de registradores / Vision Transformers Need Registers
Apresentação do artigo
- Identifica artefatos nos mapas de características de redes Vision Transformer que foram reaproveitados para cálculos internos e propõe uma solução que fornece tokens adicionais à sequência de entrada para cumprir esse papel. Essa solução corrige o problema, torna os mapas de características e de atenção mais suaves e estabelece novos resultados de ponta em tarefas densas de predição visual. #vision-transformer #transformer
> Identifies artifacts in feature maps of vision transformer networks that are repurposed for internal computations; this work proposes a solution to provide additional tokens to the input sequence to fill that role; the solution fixes the problem, leads to smoother feature and attention maps, and sets new state-of-the-art results on dense visual prediction tasks.
Resumo do artigo
- Os transformers surgiram recentemente como uma ferramenta poderosa para aprender representações visuais. Neste artigo, identificamos e caracterizamos artefatos nos mapas de características de redes ViT supervisionadas e auto-supervisionadas. Os artefatos correspondem a tokens de alta norma que aparecem durante a inferência principalmente em áreas de fundo com pouca informação nas imagens, sendo reaproveitados para cálculos internos. Propomos uma solução simples, porém eficaz, baseada em fornecer tokens adicionais à sequência de entrada do Vision Transformer para cumprir esse papel. Mostramos que essa solução corrige completamente esse problema tanto em modelos supervisionados quanto auto-supervisionados, estabelece um novo estado da arte para modelos visuais auto-supervisionados em tarefas densas de predição visual, viabiliza métodos de descoberta de objetos com modelos maiores e, mais importante, leva a mapas de características e mapas de atenção mais suaves para processamento visual downstream.
> Transformers have recently emerged as a powerful tool for learning visual representations. In this paper, we identify and characterize artifacts in feature maps of both supervised and self-supervised ViT networks. The artifacts correspond to high-norm tokens appearing during inference primarily in low-informative background areas of images, that are repurposed for internal computations. We propose a simple yet effective solution based on providing additional tokens to the input sequence of the Vision Transformer to fill that role. We show that this solution fixes that problem entirely for both supervised and self-supervised models, sets a new state of the art for self-supervised visual models on dense visual prediction tasks, enables object discovery methods with larger models, and most importantly leads to smoother feature maps and attention maps for downstream visual processing.
Link do artigo
https://arxiv.org/abs/2309.16588
Leia mais
https://x.com/TimDarcet/status/1707769575981424866
Boolformer: regressão simbólica de funções lógicas com Transformers / Boolformer: Symbolic Regression of Logic Functions with Transformers
Apresentação do artigo
- Apresenta a primeira arquitetura transformer treinada para realizar regressão simbólica de ponta a ponta de funções booleanas; ela pode prever fórmulas compactas para funções complexas e ser aplicada à modelagem da dinâmica de redes de regulação gênica. #transformer
> Presents the first transformer architecture trained to perform end-to-end symbolic regression of boolean functions; it can predict compact formulas for complex functions and be applied to modeling the dynamics of gene regulatory networks.
Resumo do artigo
- Neste estudo, apresentamos o Boolformer, a primeira arquitetura Transformer treinada para realizar regressão simbólica de ponta a ponta de funções booleanas. Primeiro, mostramos que ele pode prever fórmulas compactas para funções complexas que não foram vistas durante o treinamento, quando recebe uma tabela-verdade limpa. Em seguida, demonstramos sua capacidade de encontrar expressões aproximadas quando recebe observações incompletas e ruidosas. Avaliamos o Boolformer em um amplo conjunto de conjuntos de dados reais de classificação binária, demonstrando seu potencial como uma alternativa interpretável aos métodos clássicos de aprendizado de máquina. Por fim, aplicamos o modelo à tarefa amplamente difundida de modelar a dinâmica de redes de regulação gênica. Usando um benchmark recente, mostramos que o Boolformer é competitivo com algoritmos genéticos de última geração, com um ganho de velocidade de várias ordens de magnitude. O código e os modelos estão disponíveis publicamente.
> In this work, we introduce Boolformer, the first Transformer architecture trained to perform end-to-end symbolic regression of Boolean functions. First, we show that it can predict compact formulas for complex functions which were not seen during training, when provided a clean truth table. Then, we demonstrate its ability to find approximate expressions when provided incomplete and noisy observations. We evaluate the Boolformer on a broad set of real-world binary classification datasets, demonstrating its potential as an interpretable alternative to classic machine learning methods. Finally, we apply it to the widespread task of modelling the dynamics of gene regulatory networks. Using a recent benchmark, we show that Boolformer is competitive with state-of-the art genetic algorithms with a speedup of several orders of magnitude. Our code and models are available publicly.
Link do artigo
https://arxiv.org/abs/2309.12207
Leia mais
https://x.com/stephanedascoli/status/1706235856778834015
Alinhando grandes modelos multimodais com RLHF factualmente aumentado / Aligning Large Multimodal Models with Factually Augmented RLHF
Apresentação do artigo
- Aplica RLHF factualmente aumentado ao alinhamento de grandes modelos multimodais. Essa abordagem reduz o reward hacking no RLHF e melhora o desempenho no conjunto de dados LLaVA-Bench para o nível de 94% do desempenho do GPT-4 somente em texto. #llm-alignment #multimodal #rlhf
> Adapts factually augmented rlhf to aligning large multimodal models; this approach alleviates the reward hacking in rlhf and improves performance on the llava-bench dataset with the 94% performance level of the text-only gpt-4.
Resumo do artigo
- Grandes Modelos Multimodais (LMMs) são construídos sobre múltiplas modalidades, e o desalinhamento entre duas modalidades pode resultar em “alucinação”, gerando saídas textuais que não são fundamentadas pelas informações multimodais presentes no contexto. Para resolver esse problema de desalinhamento multimodal, adaptamos o Reinforcement Learning from Human Feedback (RLHF) do domínio de texto para a tarefa de alinhamento visão-linguagem, na qual anotadores humanos são solicitados a comparar duas respostas e identificar a que apresenta mais alucinações, e o modelo visão-linguagem é treinado para maximizar recompensas humanas simuladas. Propomos um novo algoritmo de alinhamento chamado RLHF Factualmente Aumentado, que reforça o modelo de recompensa com informações factuais adicionais, como legendas de imagens e opções de múltipla escolha com gabarito, o que mitiga o fenômeno de reward hacking no RLHF e melhora ainda mais o desempenho. Também aprimoramos os dados de treinamento gerados pelo GPT-4 (para ajuste fino de instruções visuais) com pares imagem-texto escritos por humanos que já estavam disponíveis anteriormente, para melhorar as capacidades gerais do nosso modelo. Para avaliar a abordagem proposta em cenários do mundo real, desenvolvemos um novo benchmark de avaliação, o MMHAL-BENCH, com foco especial em penalizar alucinações. Como o primeiro LMM treinado com RLHF, nossa abordagem alcança uma melhoria notável no conjunto de dados LLaVA-Bench, atingindo 94% do nível de desempenho do GPT-4 somente em texto (enquanto os melhores métodos anteriores só conseguiam alcançar 87%), além de uma melhora de 60% no MMHAL-BENCH em relação a outras linhas de base. Nosso código, modelo e dados são open source e estão disponíveis em https://llava-rlhf.github.io.
> Large Multimodal Models (LMM) are built across modalities and the misalignment between two modalities can result in "hallucination", generating textual outputs that are not grounded by the multimodal information in context. To address the multimodal misalignment issue, we adapt the Reinforcement Learning from Human Feedback (RLHF) from the text domain to the task of vision-language alignment, where human annotators are asked to compare two responses and pinpoint the more hallucinated one, and the vision-language model is trained to maximize the simulated human rewards. We propose a new alignment algorithm called Factually Augmented RLHF that augments the reward model with additional factual information such as image captions and ground-truth multi-choice options, which alleviates the reward hacking phenomenon in RLHF and further improves the performance. We also enhance the GPT-4-generated training data (for vision instruction tuning) with previously available human-written image-text pairs to improve the general capabilities of our model. To evaluate the proposed approach in real-world scenarios, we develop a new evaluation benchmark MMHAL-BENCH with a special focus on penalizing hallucinations. As the first LMM trained with RLHF, our approach achieves remarkable improvement on the LLaVA-Bench dataset with the 94% performance level of the text-only GPT-4 (while previous best methods can only achieve the 87% level), and an improvement by 60% on MMHAL-BENCH over other baselines. We opensource our code, model, data at https://llava-rlhf.github.io.
Link do artigo
https://arxiv.org/abs/2309.14525
Leia mais
https://x.com/arankomatsuzaki/status/1706839311306621182
Alinhamento de grandes modelos de linguagem: uma pesquisa / Large Language Model Alignment: A Survey
Introdução ao artigo
- Este é um relatório de pesquisa abrangente sobre alinhamento de LLM, cobrindo tópicos como alinhamento externo, alinhamento interno, interpretabilidade mecanicista, ataques contra LLMs alinhados, avaliação de alinhamento, direções futuras e discussões. #survey-paper #llm-alignment
> A comprehensive survey paper on llm alignment; topics include outer alignment, inner alignment, mechanistic interpretability, attacks on aligned llms, alignment evaluation, future directions, and discussions.
Resumo do artigo
- Nos últimos anos, os grandes modelos de linguagem (LLMs) apresentaram um progresso notável. Esses avanços, embora tenham atraído grande atenção, também levantaram várias preocupações. O potencial desses modelos é inegavelmente vasto; no entanto, eles podem gerar textos imprecisos, enganosos ou até mesmo prejudiciais. Consequentemente, torna-se fundamental empregar técnicas de alinhamento para garantir que esses modelos exibam comportamentos consistentes com os valores humanos. Esta pesquisa busca fornecer uma exploração extensa das metodologias de alinhamento projetadas para LLMs, em conjunto com as pesquisas existentes sobre capacidades nesse domínio. Adotando a perspectiva do alinhamento em IA, classificamos os métodos predominantes e as propostas emergentes para o alinhamento de LLMs em alinhamento externo e interno. Também investigamos questões relevantes, incluindo a interpretabilidade dos modelos e potenciais vulnerabilidades a ataques adversariais. Para avaliar o alinhamento de LLMs, apresentamos uma ampla variedade de benchmarks e metodologias de avaliação. Após discutir o estado atual da pesquisa em alinhamento para LLMs, por fim apresentamos uma visão para o futuro, considerando as promissoras linhas de pesquisa que estão por vir. Nossa aspiração com esta pesquisa vai além de simplesmente estimular o interesse acadêmico nessa área. Também buscamos reduzir a distância entre a comunidade de pesquisa em alinhamento de IA e os pesquisadores focados na exploração das capacidades de LLMs, em prol de LLMs ao mesmo tempo capazes e seguras.
> Recent years have witnessed remarkable progress made in large language models (LLMs). Such advancements, while garnering significant attention, have concurrently elicited various concerns. The potential of these models is undeniably vast; however, they may yield texts that are imprecise, misleading, or even detrimental. Consequently, it becomes paramount to employ alignment techniques to ensure these models to exhibit behaviors consistent with human values. This survey endeavors to furnish an extensive exploration of alignment methodologies designed for LLMs, in conjunction with the extant capability research in this domain. Adopting the lens of AI alignment, we categorize the prevailing methods and emergent proposals for the alignment of LLMs into outer and inner alignment. We also probe into salient issues including the models' interpretability, and potential vulnerabilities to adversarial attacks. To assess LLM alignment, we present a wide variety of benchmarks and evaluation methodologies. After discussing the state of alignment research for LLMs, we finally cast a vision toward the future, contemplating the promising avenues of research that lie ahead. Our aspiration for this survey extends beyond merely spurring research interests in this realm. We also envision bridging the gap between the AI alignment research community and the researchers engrossed in the capability exploration of LLMs for both capable and safe LLMs.
Link do artigo
https://arxiv.org/abs/2309.15025
Leia mais
https://x.com/omarsar0/status/1706845285064818905
Relatório técnico do Qwen / Qwen Technical Report
Introdução ao artigo
- Propõe uma série de LLMs que demonstram a força do RLHF em tarefas relacionadas ao uso de ferramentas e capacidades de planejamento para criar agentes de linguagem. #qwen-vl #rlhf
> Proposes a series of llms demonstrating the strength of rlhf on tasks involving tool use and planning capabilities for creating language agents.
Resumo do artigo
- Os grandes modelos de linguagem (LLMs) revolucionaram o campo da inteligência artificial, viabilizando tarefas de processamento de linguagem natural que antes eram consideradas exclusivas dos humanos. Neste artigo, apresentamos o Qwen, o primeiro produto da nossa série de grandes modelos de linguagem. O Qwen é uma série abrangente de modelos de linguagem que inclui vários modelos com diferentes quantidades de parâmetros. Isso inclui o Qwen, um modelo base de linguagem pré-treinado, e o Qwen-Chat, um modelo de chat ajustado com técnicas de alinhamento humano. O modelo base de linguagem apresenta desempenho consistentemente excelente em diversas tarefas downstream e, em especial, o modelo de chat treinado com Reinforcement Learning from Human Feedback (RLHF) é altamente competitivo. O modelo de chat conta com recursos avançados de uso de ferramentas e planejamento para criar aplicações de agentes, mostrando desempenho impressionante mesmo quando comparado a modelos maiores em tarefas complexas, como o uso de um code interpreter. Além disso, também foram desenvolvidos os modelos especializados em programação Code-Qwen e Code-Qwen-Chat, bem como o modelo especializado em matemática Math-Qwen-Chat, construídos com base no modelo de linguagem principal. Esses modelos apresentam desempenho significativamente superior em relação aos modelos open source, embora fiquem ligeiramente atrás dos modelos proprietários.
> Large language models (LLMs) have revolutionized the field of artificial intelligence, enabling natural language processing tasks that were previously thought to be exclusive to humans. In this work, we introduce Qwen, the first installment of our large language model series. Qwen is a comprehensive language model series that encompasses distinct models with varying parameter counts. It includes Qwen, the base pretrained language models, and Qwen-Chat, the chat models finetuned with human alignment techniques. The base language models consistently demonstrate superior performance across a multitude of downstream tasks, and the chat models, particularly those trained using Reinforcement Learning from Human Feedback (RLHF), are highly competitive. The chat models possess advanced tool-use and planning capabilities for creating agent applications, showcasing impressive performance even when compared to bigger models on complex tasks like utilizing a code interpreter. Furthermore, we have developed coding-specialized models, Code-Qwen and Code-Qwen-Chat, as well as mathematics-focused models, Math-Qwen-Chat, which are built upon base language models. These models demonstrate significantly improved performance in comparison with open-source models, and slightly fall behind the proprietary models.
Link do artigo
https://arxiv.org/abs/2309.16609
Leia mais
https://x.com/omarsar0/status/1707776749042364729
MentalLLaMA: análise interpretável de saúde mental em redes sociais com grandes modelos de linguagem / MentalLLaMA: Interpretable Mental Health Analysis on Social Media with Large Language Models
Introdução ao artigo
- Uma série open source de llm para análise interpretável de saúde mental com capacidade de seguir instruções; também propõe um conjunto de dados de instruções interpretáveis, multitarefa e multiorigem, sobre saúde mental em redes sociais, com 105 mil amostras de dados. #medical #llm-for-clinical-task #llama
> An open-source llm series for interpretable mental health analysis with instruction-following capability; it also proposes a multi-task and multi-source interpretable mental health instruction dataset on social media with 105k data samples.
Resumo do artigo
- Com o desenvolvimento das tecnologias da web, os textos das redes sociais estão se tornando uma fonte rica para a análise automática de saúde mental. Como os métodos discriminativos tradicionais têm o problema da baixa interpretabilidade, recentemente grandes modelos de linguagem vêm sendo estudados para análise interpretável de saúde mental em redes sociais, com o objetivo de fornecer explicações detalhadas junto com as previsões. Como resultado, foi demonstrado que o ChatGPT pode gerar explicações próximas às humanas para classificações corretas. No entanto, os LLMs ainda apresentam desempenho de classificação insatisfatório em abordagens zero-shot/few-shot. O ajuste fino específico de domínio é uma solução eficaz, mas enfrenta dois desafios: 1) falta de dados de treinamento de alta qualidade. 2) nenhum LLM open source para análise interpretável de saúde mental foi lançado para reduzir o custo de ajuste fino. Para resolver esses problemas, o Facebook construiu o primeiro conjunto de dados IMHI (interpretable mental health instruction) multitarefa e multiorigem em redes sociais, composto por 105 mil amostras de dados. Os dados brutos de redes sociais são coletados de 10 fontes existentes que cobrem 8 tarefas de análise de saúde mental. Usando prompts few-shot escritos por especialistas e os rótulos coletados, o ChatGPT é instruído e as explicações são obtidas a partir de suas respostas. Para garantir a confiabilidade das explicações, são realizadas rigorosas avaliações automáticas e humanas sobre a exatidão, consistência e qualidade dos dados gerados. Com base no conjunto de dados IMHI e no modelo de base LLaMA2, foi treinado o MentalLLaMA, a primeira série de LLMs open source para análise interpretável de saúde mental com capacidade de seguir instruções. Além disso, o desempenho do MentalLLaMA é avaliado no benchmark de avaliação IMHI, composto por 10 conjuntos de teste, examinando a exatidão das previsões e a qualidade das explicações. Como resultado, o MentalLLaMA demonstrou gerar explicações de alta qualidade e alcançar uma exatidão próxima à dos métodos discriminativos de estado da arte.
With the development of web technology, social media texts are becoming a rich source for automatic mental health analysis. As traditional discriminative methods bear the problem of low interpretability, the recent large language models have been explored for interpretable mental health analysis on social media, which aims to provide detailed explanations along with predictions. The results show that ChatGPT can generate approaching-human explanations for its correct classifications. However, LLMs still achieve unsatisfactory classification performance in a zero-shot/few-shot manner. Domain-specific finetuning is an effective solution, but faces 2 challenges: 1) lack of high-quality training data. 2) no open-source LLMs for interpretable mental health analysis were released to lower the finetuning cost. To alleviate these problems, we build the first multi-task and multi-source interpretable mental health instruction (IMHI) dataset on social media, with 105K data samples. The raw social media data are collected from 10 existing sources covering 8 mental health analysis tasks. We use expert-written few-shot prompts and collected labels to prompt ChatGPT and obtain explanations from its responses. To ensure the reliability of the explanations, we perform strict automatic and human evaluations on the correctness, consistency, and quality of generated data. Based on the IMHI dataset and LLaMA2 foundation models, we train MentalLLaMA, the first open-source LLM series for interpretable mental health analysis with instruction-following capability. We also evaluate the performance of MentalLLaMA on the IMHI evaluation benchmark with 10 test sets, where their correctness for making predictions and the quality of explanations are examined. The results show that MentalLLaMA approaches state-of-the-art discriminative methods in correctness and generates high-quality explanations.
Link do artigo
https://arxiv.org/abs/2309.13567
Leia mais
https://x.com/SAnaniadou/status/1707668936634794442
Fortalecendo o raciocínio chain-of-thought zero-shot em grandes modelos de linguagem por meio da lógica / Enhancing Zero-Shot Chain-of-Thought Reasoning in Large Language Models through Logic
Introdução ao artigo
- Um novo framework neuro-simbólico para melhorar o raciocínio chain-of-thought zero-shot em LLMs; ele aproveita princípios da lógica simbólica para verificar e revisar processos de raciocínio, melhorando as capacidades de raciocínio dos LLMs. #chain-of-thought
A new neurosymbolic framework to improve zero-shot chain-of-thought reasoning in llms; leverages principles from symbolic logic to verify and revise reasoning processes to improve the reasoning capabilities of llms.
Resumo do artigo
- Os avanços recentes nos grandes modelos de linguagem demonstraram sua notável capacidade de generalização em diversos domínios. No entanto, suas habilidades de raciocínio ainda têm bastante espaço para melhorar, especialmente quando confrontadas com cenários que exigem raciocínio em múltiplas etapas. Embora os grandes modelos de linguagem possuam amplo conhecimento, seu comportamento, especialmente em termos de raciocínio, muitas vezes falha em utilizar esse conhecimento de forma eficaz para estabelecer um paradigma de pensamento coerente. Modelos de linguagem generativos às vezes apresentam alucinações, já que seus procedimentos de raciocínio não são restringidos por princípios lógicos. Com o objetivo de melhorar a capacidade de raciocínio zero-shot com cadeia de pensamento dos grandes modelos de linguagem, propomos o Logical Chain-of-Thought (LogiCoT), uma estrutura neuro-simbólica que aproveita princípios da lógica simbólica para verificar e revisar os processos de raciocínio de acordo com isso. Avaliações experimentais realizadas em tarefas de linguagem em diversos domínios, incluindo aritmética, senso comum, raciocínio simbólico, inferência causal e problemas sociais, demonstram a eficácia do paradigma de raciocínio aprimorado pela lógica.
> Recent advancements in large language models have showcased their remarkable generalizability across various domains. However, their reasoning abilities still have significant room for improvement, especially when confronted with scenarios requiring multi-step reasoning. Although large language models possess extensive knowledge, their behavior, particularly in terms of reasoning, often fails to effectively utilize this knowledge to establish a coherent thinking paradigm. Generative language models sometimes show hallucinations as their reasoning procedures are unconstrained by logical principles. Aiming to improve the zero-shot chain-of-thought reasoning ability of large language models, we propose Logical Chain-of-Thought (LogiCoT), a neurosymbolic framework that leverages principles from symbolic logic to verify and revise the reasoning processes accordingly. Experimental evaluations conducted on language tasks in diverse domains, including arithmetic, commonsense, symbolic, causal inference, and social problems, demonstrate the efficacy of the enhanced reasoning paradigm by logic.
Link do artigo
https://arxiv.org/abs/2309.13339
Leia mais
https://x.com/omarsar0/status/1706711389803287019
Original
https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-c24
2 comentários
Uau... gostei muito de ler este post tão caprichado.
Obrigado ^^;