4 pontos por ninebow 2023-11-21 | Ainda não há comentários. | Compartilhar no WhatsApp

Visão geral

  • Tentei traduzir automaticamente os artigos sobre papers de ML publicados semanalmente pela DAIR.AI.

  • Nesta semana, predominaram pesquisas voltadas a melhorar e expandir os LLMs (Large Language Models), ou seja, modelos de linguagem de grande porte. Em especial, estão incluídos artigos sobre operação eficiente em termos de custo dos LLMs, seu uso para descobertas científicas e modelos de linguagem para geração prática de código. Além disso, também parece haver uma tendência de pesquisas para aumentar a factualidade desses modelos.

  • Os modelos de linguagem, especialmente os LLMs, estão em destaque na área de processamento de linguagem natural (NLP). Isso provavelmente se deve ao fato de que esses modelos passaram a conseguir lidar com tarefas linguísticas complexas e diversas de forma cada vez mais semelhante aos humanos. Esses modelos podem ser aplicados em várias áreas, como imitar raciocínio estruturado (Contrastive CoT Prompting) ou melhorar a automação no desenvolvimento de código (A Survey on Language Models for Code). Também são tendências importantes de pesquisa métodos para evoluir ainda mais os LLMs, por exemplo reforçando a recuperação de informação por meio de filtragem precisa de contexto (Learning to Filter Context for RAG) ou pesquisas voltadas a evitar que enganem os usuários (LLMs can Deceive Users).


Emu Video e Emu Edit / Emu Video and Emu Edit

Introdução ao artigo

  • Apresenta novos modelos para edição controlada de imagens e geração de texto para vídeo com base em modelos de difusão. O Emu Video pode gerar vídeos de alta qualidade usando apenas texto, apenas imagem ou a combinação de texto e imagem como entrada, e o Emu Edit permite edição de formato livre por meio de instruções em texto.

    Present new models for controlled image editing and text-to-video generation based on diffusion models; emu video can generate high-quality video by using text-only, image-only, or combined text and image inputs; emu edit enables free-form editing through text instructions.

Link do artigo

https://ai.meta.com/blog/…

Leia mais

https://x.com/AIatMeta/status/1725184026154349007


CoN (Chain-of-Note): aumento da robustez em modelos de linguagem com recuperação aumentada / Chain-of-Note: Enhancing Robustness in Retrieval-Augmented Language Models

Introdução ao artigo

  • Uma abordagem para melhorar a robustez e a confiabilidade de modelos de linguagem com recuperação aumentada ao lidar com documentos ruidosos, irrelevantes e cenários desconhecidos; o CoN gera notas de leitura sequenciais para os documentos recuperados, permitindo avaliar sua relevância para a pergunta dada e integrar essas informações para formular a resposta final; o CoN supera significativamente os modelos de linguagem com recuperação aumentada padrão e alcançou uma melhora média de +7,9 na pontuação EM com documentos recuperados totalmente ruidosos e +10,5 nas taxas de rejeição para perguntas em tempo real que estão fora do escopo do conhecimento de pré-treinamento.

    An approach to improve the robustness and reliability of retrieval-augmented language models in facing noisy, irrelevant documents and in handling unknown scenarios; con generates sequential reading notes for the retrieved documents, enabling an evaluation of their relevance to the given question and integrating this information to formulate the final answer; con significantly outperforms standard retrieval-augmented language models and achieves an average improvement of +7.9 in em score given entirely noisy retrieved documents and +10.5 in rejection rates for real-time questions that fall outside the pre-training knowledge scope.

Resumo do artigo

  • Os modelos de linguagem com aumento por recuperação (RALM) representam um avanço substancial nas capacidades dos grandes modelos de linguagem, especialmente na redução de alucinações factuais ao aproveitar fontes externas de conhecimento. No entanto, a confiabilidade das informações recuperadas nem sempre é garantida. A recuperação de dados irrelevantes pode levar a respostas equivocadas e fazer com que o modelo ignore seu próprio conhecimento, mesmo quando possui informações adequadas para responder à consulta. Além disso, os RALMs padrão frequentemente têm dificuldade para avaliar se possuem conhecimento suficiente, tanto intrínseco quanto recuperado, para fornecer uma resposta precisa. Em situações em que falta conhecimento, o ideal é que esses sistemas respondam com "desconhecido" quando a resposta não puder ser obtida. Para enfrentar esses desafios, foi introduzido o CoN (Chain-of-Noting), uma nova abordagem voltada a melhorar a robustez dos RALMs diante de documentos ruidosos e irrelevantes e no tratamento de cenários desconhecidos. A ideia central do CoN é gerar notas de leitura sequenciais para os documentos recuperados, permitindo uma avaliação minuciosa de sua relevância para a pergunta dada e integrando essas informações para formular a resposta final. O ChatGPT foi usado para criar dados de treinamento para o CoN, que depois foi treinado em um modelo LLaMa-2 7B. Experimentos em quatro benchmarks de QA de domínio aberto mostram que RALMs equipados com CoN superam significativamente os RALMs padrão. Em especial, o CoN alcança uma melhora média de +7,9 na pontuação EM com documentos recuperados totalmente ruidosos e de +10,5 nas taxas de rejeição para perguntas em tempo real que ficam fora do escopo de conhecimento do pré-treinamento.

    Retrieval-augmented language models (RALMs) represent a substantial advancement in the capabilities of large language models, notably in reducing factual hallucination by leveraging external knowledge sources. However, the reliability of the retrieved information is not always guaranteed. The retrieval of irrelevant data can lead to misguided responses, and potentially causing the model to overlook its inherent knowledge, even when it possesses adequate information to address the query. Moreover, standard RALMs often struggle to assess whether they possess adequate knowledge, both intrinsic and retrieved, to provide an accurate answer. In situations where knowledge is lacking, these systems should ideally respond with "unknown" when the answer is unattainable. In response to these challenges, we introduces Chain-of-Noting (CoN), a novel approach aimed at improving the robustness of RALMs in facing noisy, irrelevant documents and in handling unknown scenarios. The core idea of CoN is to generate sequential reading notes for retrieved documents, enabling a thorough evaluation of their relevance to the given question and integrating this information to formulate the final answer. We employed ChatGPT to create training data for CoN, which was subsequently trained on an LLaMa-2 7B model. Our experiments across four open-domain QA benchmarks show that RALMs equipped with CoN significantly outperform standard RALMs. Notably, CoN achieves an average improvement of +7.9 in EM score given entirely noisy retrieved documents and +10.5 in rejection rates for real-time questions that fall outside the pre-training knowledge scope.

Link do artigo

https://arxiv.org/abs/2311.09210

Leia mais

https://x.com/omarsar0/status/1725181141693472959


O impacto dos grandes modelos de linguagem na descoberta científica: um estudo preliminar usando GPT-4 / The Impact of Large Language Models on Scientific Discovery: a Preliminary Study using GPT-4

Introdução ao artigo

  • Explora o impacto dos grandes modelos de linguagem, particularmente o GPT-4, em vários campos científicos, incluindo descoberta de fármacos, biologia e química computacional; avalia a compreensão do GPT-4 sobre conceitos científicos complexos, suas capacidades de resolução de problemas e seu potencial para impulsionar a pesquisa científica por meio de avaliações de casos conduzidas por especialistas e testes de benchmark.

    Explores the impact of large language models, particularly gpt-4, across various scientific fields including drug discovery, biology, and computational chemistry; assesses gpt-4's understanding of complex scientific concepts, its problem-solving capabilities, and its potential to advance scientific research through expert-driven case assessments and benchmark testing.

Resumo do artigo

  • Nos últimos anos, avanços revolucionários no processamento de linguagem natural culminaram no surgimento de poderosos grandes modelos de linguagem (LLMs), que demonstraram capacidades notáveis em uma vasta gama de domínios, incluindo compreensão, geração e tradução de linguagem natural, e até tarefas que vão além do processamento de linguagem. Neste relatório, analisamos em detalhes o desempenho dos LLMs no contexto da descoberta científica, com foco no GPT-4, o modelo de linguagem de ponta. Realizamos uma investigação abrangente em diversas áreas científicas, incluindo descoberta de fármacos, biologia, química computacional (teoria do funcional da densidade (DFT) e dinâmica molecular (MD)), design de materiais e equações diferenciais parciais (PDE). Avaliar o GPT-4 em tarefas científicas é crucial para revelar seu potencial em diferentes domínios de pesquisa, validar sua expertise específica por área, acelerar o progresso científico, otimizar a alocação de recursos, orientar o desenvolvimento de modelos futuros e fomentar pesquisas interdisciplinares. Nossa metodologia de exploração consiste principalmente em avaliações de casos conduzidas por especialistas, que oferecem insights qualitativos sobre a compreensão do modelo a respeito de conceitos e relações científicas complexas, e em testes de benchmark, que avaliam quantitativamente a capacidade do modelo de resolver problemas bem definidos e específicos de cada domínio. Os resultados preliminares da investigação indicam que o GPT-4 é adequado para lidar com resolução de problemas complexos e tarefas de integração de conhecimento, mostrando potencial promissor em várias aplicações científicas. Em termos gerais, avaliamos a base de conhecimento do GPT-4, sua compreensão científica, suas capacidades de cálculo numérico científico e suas diversas capacidades de previsão científica.

    In recent years, groundbreaking advancements in natural language processing have culminated in the emergence of powerful large language models (LLMs), which have showcased remarkable capabilities across a vast array of domains, including the understanding, generation, and translation of natural language, and even tasks that extend beyond language processing. In this report, we delve into the performance of LLMs within the context of scientific discovery, focusing on GPT-4, the state-of-the-art language model. Our investigation spans a diverse range of scientific areas encompassing drug discovery, biology, computational chemistry (density functional theory (DFT) and molecular dynamics (MD)), materials design, and partial differential equations (PDE). Evaluating GPT-4 on scientific tasks is crucial for uncovering its potential across various research domains, validating its domain-specific expertise, accelerating scientific progress, optimizing resource allocation, guiding future model development, and fostering interdisciplinary research. Our exploration methodology primarily consists of expert-driven case assessments, which offer qualitative insights into the model's comprehension of intricate scientific concepts and relationships, and occasionally benchmark testing, which quantitatively evaluates the model's capacity to solve well-defined domain-specific problems. Our preliminary exploration indicates that GPT-4 exhibits promising potential for a variety of scientific applications, demonstrating its aptitude for handling complex problem-solving and knowledge integration tasks. Broadly speaking, we evaluate GPT-4's knowledge base, scientific understanding, scientific numerical calculation abilities, and various scientific prediction capabilities.

Link do artigo

https://arxiv.org/abs/2311.07361

Leia mais

https://x.com/omarsar0/status/1724465107046940893


Ajustando modelos de linguagem para factualidade / Fine-tuning Language Models for Factuality

Introdução do artigo

  • Ajusta um modelo de linguagem para factualidade sem exigir rotulagem humana; aprende a partir de rankings de preferência de factualidade gerados automaticamente e tem como alvo cenários de geração aberta; melhora significativamente a factualidade do Llama-2 em tópicos não vistos em comparação com RLHF ou estratégias de decodificação voltadas para factualidade.

    Fine-tunes language model for factuality without requiring human labeling; it learns from automatically generated factuality preference rankings and targets open-ended generation settings; it significantly improves the factuality of llama-2 on held-out topics compared with rlhf or decoding strategies targeted at factuality.

Resumo do artigo

  • A fluência e a criatividade dos grandes modelos de linguagem (LLMs) pré-treinados levaram ao seu uso generalizado, às vezes até como substitutos dos mecanismos de busca tradicionais. No entanto, os modelos de linguagem são propensos a fazer afirmações convincentes, mas factualmente incorretas, muitas vezes chamadas de "alucinações". Esses erros podem espalhar desinformação inadvertidamente ou perpetuar equívocos de forma prejudicial. Além disso, a verificação manual dos fatos nas respostas do modelo é um processo demorado, o que torna caro obter rótulos humanos de factualidade. Neste trabalho, ajustamos modelos de linguagem para que sejam mais factuais, sem rotulagem humana e visando cenários de geração mais abertos do que os de trabalhos anteriores. Para isso, aproveitamos duas inovações recentes importantes em NLP. Primeiro, vários trabalhos recentes propuseram métodos para julgar a factualidade de texto aberto medindo a consistência com uma base de conhecimento externa ou simplesmente os escores de confiança de um grande modelo. Segundo, o algoritmo de otimização direta por preferência permite o ajuste fino direto de modelos de linguagem para objetivos além da imitação supervisionada, usando um ranking de preferência sobre possíveis respostas do modelo. Mostramos que aprender com rankings de preferência de factualidade gerados automaticamente, seja por meio de sistemas de recuperação existentes ou de nossa nova abordagem sem recuperação, melhora significativamente a factualidade do Llama-2 (percentual de afirmações geradas que estão corretas) em tópicos reservados para teste, em comparação com RLHF ou estratégias de decodificação voltadas à factualidade. Na escala de 7B, em comparação com o Llama-2-chat, observamos reduções de 58% e 40% na taxa de erro factual ao gerar biografias e responder perguntas médicas, respectivamente.

    The fluency and creativity of large pre-trained language models (LLMs) have led to their widespread use, sometimes even as a replacement for traditional search engines. Yet language models are prone to making convincing but factually inaccurate claims, often referred to as 'hallucinations.' These errors can inadvertently spread misinformation or harmfully perpetuate misconceptions. Further, manual fact-checking of model responses is a time-consuming process, making human factuality labels expensive to acquire. In this work, we fine-tune language models to be more factual, without human labeling and targeting more open-ended generation settings than past work. We leverage two key recent innovations in NLP to do so. First, several recent works have proposed methods for judging the factuality of open-ended text by measuring consistency with an external knowledge base or simply a large model's confidence scores. Second, the direct preference optimization algorithm enables straightforward fine-tuning of language models on objectives other than supervised imitation, using a preference ranking over possible model responses. We show that learning from automatically generated factuality preference rankings, generated either through existing retrieval systems or our novel retrieval-free approach, significantly improves the factuality (percent of generated claims that are correct) of Llama-2 on held-out topics compared with RLHF or decoding strategies targeted at factuality. At 7B scale, compared to Llama-2-chat, we observe 58% and 40% reduction in factual error rate when generating biographies and answering medical questions, respectively.

Link do artigo

https://arxiv.org/abs/2311.08401

Leia mais

https://x.com/arankomatsuzaki/status/1724613041155608951


Prompting com cadeia de raciocínio contrastiva (CoT) / Contrastive Chain-of-Thought Prompting

Apresentação do artigo

  • Propõe um método de cadeia de raciocínio contrastiva (CoT) para melhorar o raciocínio de modelos de linguagem. Essa abordagem fornece demonstrações de raciocínio válidas e inválidas para orientar o modelo a raciocinar passo a passo, ao mesmo tempo em que reduz erros de raciocínio. Também propõe um método automático para construir demonstrações contrastivas e mostra melhorias em relação ao prompting CoT.

    Proposes a contrastive chain of thought method to enhance language model reasoning; the approach provides both valid and invalid reasoning demonstrations, to guide the model to reason step-by-step while reducing reasoning mistakes; also proposes an automatic method to construct contrastive demonstrations and demonstrates improvements over cot prompting.

Resumo do artigo

  • Apesar do sucesso do chain of thought em melhorar o raciocínio de modelos de linguagem, o processo subjacente ainda é pouco compreendido. Embora um raciocínio logicamente sólido pareça ser crucial por natureza para o chain of thought, estudos anteriores revelam de forma surpreendente que o impacto é mínimo mesmo quando se usam demonstrações inválidas. Além disso, o chain of thought convencional não informa aos modelos de linguagem quais erros devem ser evitados, o que pode potencialmente levar a mais falhas. Assim, inspirados pela forma como humanos podem aprender tanto com exemplos positivos quanto negativos, propomos o contrastive chain of thought para reforçar o raciocínio de modelos de linguagem. Em comparação com o chain of thought convencional, nossa abordagem fornece demonstrações de raciocínio válidas e inválidas para orientar o modelo a raciocinar passo a passo enquanto reduz erros de raciocínio. Para melhorar a generalização, introduzimos um método automático para construir demonstrações contrastivas. Nossos experimentos em benchmarks de raciocínio demonstram que o contrastive chain of thought pode servir como um aprimoramento geral do prompting com chain of thought.

    Despite the success of chain of thought in enhancing language model reasoning, the underlying process remains less well understood. Although logically sound reasoning appears inherently crucial for chain of thought, prior studies surprisingly reveal minimal impact when using invalid demonstrations instead. Furthermore, the conventional chain of thought does not inform language models on what mistakes to avoid, which potentially leads to more errors. Hence, inspired by how humans can learn from both positive and negative examples, we propose contrastive chain of thought to enhance language model reasoning. Compared to the conventional chain of thought, our approach provides both valid and invalid reasoning demonstrations, to guide the model to reason step-by-step while reducing reasoning mistakes. To improve generalization, we introduce an automatic method to construct contrastive demonstrations. Our experiments on reasoning benchmarks demonstrate that contrastive chain of thought can serve as a general enhancement of chain-of-thought prompting.

Link do artigo

https://arxiv.org/abs/2311.09277

Leia mais

https://x.com/arankomatsuzaki/status/1725340150819905723


Artigo de survey sobre modelos de linguagem para código / A Survey on Language Models for Code

Introdução ao artigo

  • Fornece uma visão geral de LLMs para código, incluindo uma revisão de mais de 50 modelos, mais de 30 tarefas de avaliação e mais de 500 trabalhos relacionados.

    Provides an overview of llms for code, including a review of 50+ models, 30+ evaluation tasks, and 500 related works.

Resumo do artigo

  • Neste trabalho, revisamos sistematicamente os avanços recentes no processamento de código com modelos de linguagem, cobrindo mais de 50 modelos, mais de 30 tarefas de avaliação e 500 trabalhos relacionados. Dividimos os modelos de processamento de código em modelos de linguagem gerais, representados pela família GPT, e modelos especializados que foram pré-treinados especificamente em código, muitas vezes com objetivos personalizados. Discutimos as relações e diferenças entre esses modelos e destacamos a transição histórica da modelagem de código, de modelos estatísticos e RNNs para Transformers pré-treinados e LLMs, seguindo exatamente o mesmo caminho percorrido pelo NLP. Também discutimos recursos específicos de código, como AST, CFG e testes unitários, juntamente com sua aplicação no treinamento de modelos de linguagem para código, e identificamos os principais desafios e possíveis direções futuras nesse domínio. A survey permanece aberta e atualizada no repositório do GitHub (https://github.com/codefuse-ai/Awesome-Code-LLM).

    In this work we systematically review the recent advancements in code processing with language models, covering 50+ models, 30+ evaluation tasks, and 500 related works. We break down code processing models into general language models represented by the GPT family and specialized models that are specifically pretrained on code, often with tailored objectives. We discuss the relations and differences between these models, and highlight the historical transition of code modeling from statistical models and RNNs to pretrained Transformers and LLMs, which is exactly the same course that had been taken by NLP. We also discuss code-specific features such as AST, CFG, and unit tests, along with their application in training code language models, and identify key challenges and potential future directions in this domain. We keep the survey open and updated on github repository at https://github.com/codefuse-ai/Awesome-Code-LLM.

Link do artigo

https://arxiv.org/abs/2311.07989v1

Leia mais

https://x.com/omarsar0/status/1725637165256761553


JARVIS-1: Agentes multitarefa de mundo aberto com modelos de linguagem multimodais com memória aumentada / JARVIS-1: Open-World Multi-task Agents with Memory-Augmented Multimodal Language Models

Introdução ao artigo

  • Um agente de mundo aberto capaz de perceber entradas multimodais (observações visuais e instruções humanas), gerar planos sofisticados e executar controle incorporado dentro do universo aberto de Minecraft; apresenta desempenho quase perfeito em mais de 200 tarefas no universo de Minecraft; alcança uma taxa de conclusão de 12,5% na tarefa de longo horizonte da picareta de diamante, o que representa um aumento de 5x em relação aos recordes anteriores.

    An open-world agent that can perceive multimodal input (visual observations and human instructions), generate sophisticated plans, and perform embodied control, within the open-world minecraft universe; exhibits near-perfect performances across over 200 tasks in minecraft universe; achieves a completion rate of 12.5% in the long-horizon diamond pickaxe task, which is a 5x increase compared to previous records.

Resumo do artigo

  • Alcançar planejamento e controle semelhantes aos humanos com observações multimodais em um mundo aberto é um marco essencial para agentes generalistas mais funcionais. As abordagens existentes conseguem lidar com certas tarefas específicas de longo horizonte em mundo aberto. No entanto, elas ainda enfrentam dificuldades porque o número de tarefas de mundo aberto pode crescer infinitamente e porque faltam capacidades para melhorar progressivamente a taxa de conclusão das tarefas à medida que o tempo de jogo avança. A Unity apresenta o JARVIS-1, um agente de mundo aberto que, dentro do universo popular e desafiador de Minecraft, é capaz de perceber entradas compostas como observações visuais e instruções humanas, gerar planos sofisticados e executar controle incorporado. Em particular, a Unity desenvolve o JARVIS-1 com base em um modelo de linguagem multimodal pré-treinado que mapeia observações visuais e instruções textuais em planos. Esses planos são então encaminhados para controladores condicionados ao objetivo final. A Unity equipa o JARVIS-1 com memória multimodal para permitir que ele formule planos usando tanto conhecimento pré-treinado quanto experiências reais de sobrevivência no jogo. Nos experimentos da Unity, o JARVIS-1 mostrou desempenho quase perfeito em mais de 200 tarefas variadas do benchmark Minecraft Universe, do nível iniciante ao intermediário. O JARVIS-1 alcançou uma taxa de conclusão de 12,5% na tarefa de longo horizonte da picareta de diamante. Isso representa uma melhora significativa de até 5 vezes em relação ao recorde anterior. Além disso, foi demonstrado que, graças à memória multimodal, o JARVIS-1 pode se $\textit{autoaperfeiçoar}$ seguindo um paradigma de aprendizado ao longo da vida, impulsionando uma inteligência mais geral e maior autonomia. A página do projeto está disponível em https://craftjarvis-jarvis1.github.io.

    Achieving human-like planning and control with multimodal observations in an open world is a key milestone for more functional generalist agents. Existing approaches can handle certain long-horizon tasks in an open world. However, they still struggle when the number of open-world tasks could potentially be infinite and lack the capability to progressively enhance task completion as game time progresses. We introduce JARVIS-1, an open-world agent that can perceive multimodal input (visual observations and human instructions), generate sophisticated plans, and perform embodied control, all within the popular yet challenging open-world Minecraft universe. Specifically, we develop JARVIS-1 on top of pre-trained multimodal language models, which map visual observations and textual instructions to plans. The plans will be ultimately dispatched to the goal-conditioned controllers. We outfit JARVIS-1 with a multimodal memory, which facilitates planning using both pre-trained knowledge and its actual game survival experiences. In our experiments, JARVIS-1 exhibits nearly perfect performances across over 200 varying tasks from the Minecraft Universe Benchmark, ranging from entry to intermediate levels. JARVIS-1 has achieved a completion rate of 12.5% in the long-horizon diamond pickaxe task. This represents a significant increase up to 5 times compared to previous records. Furthermore, we show that JARVIS-1 is able to $\textit{self-improve}$ following a life-long learning paradigm thanks to multimodal memory, sparking a more general intelligence and improved autonomy. The project page is available at https://craftjarvis-jarvis1.github.io.

Link do artigo

https://arxiv.org/abs/2311.05997

Leia mais

https://x.com/arankomatsuzaki/status/1723882043514470629


FILCO: método de aprendizado para filtragem de contexto em geração aumentada por recuperação / Learning to Filter Context for Retrieval-Augmented Generation

Introdução ao artigo

  • Propõe um método que melhora a qualidade do contexto fornecido ao gerador em duas etapas: 1) identificar contexto útil com base em abordagens lexicais e da teoria da informação e 2) treinar modelos de filtragem de contexto capazes de filtrar os contextos recuperados durante a inferência; supera abordagens existentes em tarefas de resposta a perguntas (QA) extrativa, QA complexa de múltiplos saltos e em formato longo, verificação factual e geração de diálogo.

    Proposes a method that improves the quality of the context provided to the generator via two steps: 1) identifying useful context based on lexical and information-theoretic approaches, and 2) training context filtering models that can filter retrieved contexts at inference; outperforms existing approaches on extractive question answering (qa), complex multi-hop and long-form qa, fact verification, and dialog generation tasks.

Resumo do artigo

  • A recuperação imediata de conhecimento relevante tem se mostrado um elemento essencial de sistemas confiáveis para tarefas como resposta a perguntas em domínio aberto e verificação factual. No entanto, como os sistemas de recuperação não são perfeitos, são necessários modelos de geração para produzir saídas mesmo quando recebem passagens parcialmente ou totalmente irrelevantes. Isso pode causar dependência excessiva ou insuficiente do contexto e resultar em problemas nas saídas geradas, como alucinações. Para mitigar esses problemas, é proposto o FILCO, um método que melhora a qualidade do contexto fornecido ao gerador por meio de: (1) identificação de contexto útil com base em abordagens lexicais e da teoria da informação; e (2) treinamento de modelos de filtragem de contexto capazes de filtrar contextos recuperados no momento do teste. Experimentos em seis tarefas intensivas em conhecimento com FLAN-T5 e LLaMa2 demonstram que o método supera abordagens existentes em tarefas de resposta a perguntas (QA) extrativa, QA complexa de múltiplos saltos e de formato longo, verificação factual e geração de diálogo. O FILCO melhora efetivamente a qualidade do contexto, independentemente de ele dar suporte ou não à saída canônica.

    On-the-fly retrieval of relevant knowledge has proven an essential element of reliable systems for tasks such as open-domain question answering and fact verification. However, because retrieval systems are not perfect, generation models are required to generate outputs given partially or entirely irrelevant passages. This can cause over- or under-reliance on context, and result in problems in the generated output such as hallucinations. To alleviate these problems, we propose FILCO, a method that improves the quality of the context provided to the generator by (1) identifying useful context based on lexical and information-theoretic approaches, and (2) training context filtering models that can filter retrieved contexts at test time. We experiment on six knowledge-intensive tasks with FLAN-T5 and LLaMa2, and demonstrate that our method outperforms existing approaches on extractive question answering (QA), complex multi-hop and long-form QA, fact verification, and dialog generation tasks. FILCO effectively improves the quality of context, whether or not it supports the canonical output.

Link do artigo

https://arxiv.org/abs/2311.08377v1

Leia mais

https://x.com/ZhiruoW/status/1724792850079252886


MART: Melhorando a segurança de LLMs com red teaming automático em múltiplas rodadas / MART: Improving LLM Safety with Multi-round Automatic Red-Teaming

Introdução ao artigo

  • É proposta uma abordagem para melhorar a segurança de LLMs com red teaming automático em múltiplas rodadas, integrando geração automática de prompts adversariais e geração de respostas seguras, o que aumenta a escalabilidade do red teaming e a segurança dos LLMs; a taxa de violações de um LLM com alinhamento de segurança limitado é reduzida em até 84,7% após 4 rodadas de MART, alcançando desempenho comparável ao de LLMs com ampla geração de prompts adversariais.

    Proposes an approach for improving llm safety with multi-round automatic red-teaming; incorporates automatic adversarial prompt writing and safe response generation, which increases red-teaming scalability and the safety of llms; violation rate of an llm with limited safety alignment reduces up to 84.7% after 4 rounds of mart, achieving comparable performance to llms with extensive adversarial prompt writing.

Resumo do artigo

  • Red teaming é uma prática comum para mitigar comportamentos inseguros em grandes modelos de linguagem (LLMs), envolvendo a avaliação minuciosa dos LLMs para identificar falhas potenciais e corrigi-las com respostas responsáveis e precisas. Embora seja eficaz, o red teaming manual é caro, e o red teaming automático existente normalmente apenas descobre riscos de segurança sem resolvê-los. Neste artigo, os autores propõem o método MART (Multi-round Automatic Red-Teaming), que incorpora tanto a escrita automática de prompts adversariais quanto a geração de respostas seguras, aumentando significativamente a escalabilidade do red teaming e a segurança do LLM-alvo. Especificamente, um LLM adversarial e um LLM-alvo interagem entre si de forma iterativa, em que o LLM adversarial busca gerar prompts desafiadores que induzam respostas inseguras do LLM-alvo, enquanto o LLM-alvo é ajustado finamente com dados alinhados à segurança sobre esses prompts adversariais. Em cada rodada, o LLM adversarial cria ataques melhores contra o LLM-alvo atualizado, enquanto o LLM-alvo também melhora por meio de fine-tuning de segurança. Em benchmarks de prompts adversariais, a taxa de violações de um LLM com alinhamento de segurança limitado é reduzida em até 84,7% após 4 rodadas de MART, alcançando desempenho comparável ao de LLMs com amplo uso de escrita de prompts adversariais. Notavelmente, a utilidade do modelo em prompts não adversariais permanece estável ao longo das iterações, indicando que o LLM-alvo mantém forte desempenho em seguir instruções.

    Red-teaming is a common practice for mitigating unsafe behaviors in Large Language Models (LLMs), which involves thoroughly assessing LLMs to identify potential flaws and addressing them with responsible and accurate responses. While effective, manual red-teaming is costly, and existing automatic red-teaming typically discovers safety risks without addressing them. In this paper, we propose a Multi-round Automatic Red-Teaming (MART) method, which incorporates both automatic adversarial prompt writing and safe response generation, significantly increasing red-teaming scalability and the safety of the target LLM. Specifically, an adversarial LLM and a target LLM interplay with each other in an iterative manner, where the adversarial LLM aims to generate challenging prompts that elicit unsafe responses from the target LLM, while the target LLM is fine-tuned with safety aligned data on these adversarial prompts. In each round, the adversarial LLM crafts better attacks on the updated target LLM, while the target LLM also improves itself through safety fine-tuning. On adversarial prompt benchmarks, the violation rate of an LLM with limited safety alignment reduces up to 84.7% after 4 rounds of MART, achieving comparable performance to LLMs with extensive adversarial prompt writing. Notably, model helpfulness on non-adversarial prompts remains stable throughout iterations, indicating the target LLM maintains strong performance on instruction following.

Link do artigo

https://arxiv.org/abs/2311.07689

Leia mais

https://x.com/AIatMeta/status/1724887918685425829


Relatório técnico: grandes modelos de linguagem podem enganar estrategicamente seus usuários quando colocados sob pressão / Technical Report: Large Language Models can Strategically Deceive their Users when Put Under Pressure

Introdução ao artigo

  • Explora o uso de um agente autônomo de negociação de ações movido por roboadvisor e descobre que o agente age com base em informações privilegiadas e esconde o motivo por trás da decisão de negociação; mostra que roboadvisors úteis e seguros podem enganar estrategicamente os usuários em uma situação realista, sem instruções direcionais ou treinamento para enganar.

    Explores the use of an autonomous stock trading agent powered by llms; finds that the agent acts upon insider tips and hides the reason behind the trading decision; shows that helpful and safe llms can strategically deceive users in a realistic situation without direction instructions or training for deception.

Resumo do artigo

  • Demonstra uma situação em que modelos de linguagem de grande porte, treinados para serem úteis, inofensivos e honestos, podem exibir comportamento desalinhado e enganar estrategicamente seus usuários sem receber instruções para isso. Mais especificamente, o GPT-4 é implantado como um agente em um ambiente simulado e realista, no qual assume o papel de um agente autônomo de negociação de ações. Nesse ambiente, o modelo obtém uma informação privilegiada sobre uma operação lucrativa com ações e, mesmo sabendo que o insider trading não é aprovado pela diretoria da empresa, realiza a operação. Ao reportar ao seu gerente, o modelo esconde de forma consistente os verdadeiros motivos por trás de sua decisão de negociação. Foi feita uma breve investigação de como esse comportamento varia quando se alteram as configurações, como remover o acesso do modelo a um scratchpad de raciocínio, tentar impedir o comportamento desalinhado mudando as instruções do sistema, alterar o nível de pressão ao qual o modelo está submetido, variar o risco percebido de ser pego e fazer outras mudanças simples no ambiente. Até onde sabemos, esta é a primeira demonstração de um modelo de linguagem de grande porte treinado para ser útil, inofensivo e honesto enganando estrategicamente seus usuários em uma situação realista sem instruções diretas ou treinamento para enganar.

    We demonstrate a situation in which Large Language Models, trained to be helpful, harmless, and honest, can display misaligned behavior and strategically deceive their users about this behavior without being instructed to do so. Concretely, we deploy GPT-4 as an agent in a realistic, simulated environment, where it assumes the role of an autonomous stock trading agent. Within this environment, the model obtains an insider tip about a lucrative stock trade and acts upon it despite knowing that insider trading is disapproved of by company management. When reporting to its manager, the model consistently hides the genuine reasons behind its trading decision. We perform a brief investigation of how this behavior varies under changes to the setting, such as removing model access to a reasoning scratchpad, attempting to prevent the misaligned behavior by changing system instructions, changing the amount of pressure the model is under, varying the perceived risk of getting caught, and making other simple changes to the environment. To our knowledge, this is the first demonstration of Large Language Models trained to be helpful, harmless, and honest, strategically deceiving their users in a realistic situation without direct instructions or training for deception.

Link do artigo

https://arxiv.org/abs/2311.07590

Leia mais

https://x.com/ESYudkowsky/status/1725226563992715521


Original

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-e3d

Ainda não há comentários.

Ainda não há comentários.