17] Principais artigos de ML desta semana (Top ML Papers of the Week)

(discuss.pytorch.kr)

4 pontos por ninebow 2024-03-19 | 6 comentários | Compartilhar no WhatsApp

[2024/03/11 ~ 03/17] Principais artigos de ML desta semana (Top ML Papers of the Week)

Fizemos uma tradução automática dos textos sobre artigos de ML publicados semanalmente pela DAIR.AI.
Nesta semana, os artigos sobre grandes modelos de linguagem (Large Language Models, LLMs) apareceram como a principal tendência. É possível ver essa inclinação no fato de vários trabalhos focarem em LLMs para resolver ou compreender diferentes problemas. Por exemplo, artigos como "SIMA", "Retrieval Augmented Thoughts", "LMs Can Teach Themselves to Think Before Speaking", "Knowledge Conflicts for LLMs" e "LLMs Predict Neuroscience Results" utilizam grandes modelos de linguagem ou tratam de questões relacionadas ao seu desempenho. Além disso, trabalhos como "Stealing Part of a Production Language Model" mostram que os modelos de linguagem também estão sendo estudados sob a perspectiva da segurança.
Essa tendência parece refletir as mudanças inovadoras e a influência que os grandes modelos de linguagem trouxeram para a comunidade de pesquisa em inteligência artificial nos últimos anos. Os grandes modelos de linguagem estão se estabelecendo como modelos fundacionais eficazes não apenas em processamento de linguagem natural (Natural Language Processing, NLP), mas também em diversos domínios. Dessa forma, os LLMs apresentam alto desempenho em várias tarefas de compreensão e geração de linguagem e, além disso, vêm sendo amplamente explorados em pesquisas aplicadas. Adicionalmente, artigos como "Multimodal LLM Pre-training" mostram a tendência recente de pesquisa em que os LLMs são combinados com outros tipos de dados, como imagens e voz, para fortalecer capacidades de aprendizado multimodal.
Com base nessa análise, é possível prever que as pesquisas sobre LLMs continuarão a melhorar a compreensão de linguagem natural, se expandirão para diversas novas áreas de aplicação e desempenharão um papel importante no avanço da tecnologia de inteligência artificial. Parece que serão explorados problemas abrangentes que incluem não apenas a melhoria de desempenho dos LLMs, mas também pesquisa aplicada, segurança e questões éticas.

SIMA / SIMA

Introdução do artigo

Um agente de IA generalista para ambientes virtuais 3D que segue instruções em linguagem natural em uma ampla variedade de ambientes virtuais 3D e videogames; o SIMA é avaliado em 600 habilidades básicas, abrangendo navegação, interação com objetos e uso de menus. A linguagem parece ser um fator enorme no desempenho.

A generalist ai agent for 3d virtual environments that follows natural-language instructions in a broad range of 3d virtual environments and video games; sima is evaluated across 600 basic skills, spanning navigation, object interaction, and menu use. language seems to be a huge factor in performance.

Resumo do artigo (Abstract)

Construir sistemas de IA incorporada capazes de seguir instruções arbitrárias em linguagem em qualquer ambiente 3D é um desafio central para o desenvolvimento de uma IA geral. Alcançar esse objetivo exige aprender a ancorar a linguagem na percepção e nas ações incorporadas para realizar tarefas complexas. O projeto SIMA (Scalable, Instructable, Multiworld Agent) enfrenta esse problema treinando agentes para seguir instruções em formato livre em uma ampla variedade de ambientes virtuais 3D. Os agentes são treinados para seguir uma grande diversidade de instruções em diferentes ambientes virtuais 3D e videogames comerciais abertos. O objetivo é desenvolver um agente instruível capaz de realizar qualquer coisa que um humano possa fazer em qualquer ambiente 3D simulado. A abordagem se concentra na generalidade guiada por linguagem, impondo o mínimo de suposições possível. Os agentes interagem com os ambientes em tempo real usando uma interface genérica semelhante à humana. Eles recebem observações de imagem e instruções em linguagem, e produzem ações de teclado e mouse. Essa abordagem geral é desafiadora, mas tem a vantagem de permitir que os agentes ancorem a linguagem em muitos ambientes visualmente complexos e semanticamente ricos, ao mesmo tempo em que possibilita executar agentes com facilidade em novos ambientes. Neste artigo, os autores descrevem sua motivação e objetivo, o progresso inicial obtido e resultados preliminares promissores em diversos ambientes de pesquisa e em uma variedade de videogames comerciais.

Building embodied AI systems that can follow arbitrary language instructions in any 3D environment is a key challenge for creating general AI. Accomplishing this goal requires learning to ground language in perception and embodied actions, in order to accomplish complex tasks. The Scalable, Instructable, Multiworld Agent (SIMA) project tackles this by training agents to follow free-form instructions across a diverse range of virtual 3D environments, including curated research environments as well as openended, commercial video games. Our goal is to develop an instructable agent that can accomplish anything a human can do in any simulated 3D environment. Our approach focuses on language-driven generality while imposing minimal assumptions. Our agents interact with environments in real-time using a generic, human-like interface: the inputs are image observations and language instructions and the outputs are keyboard-and-mouse actions. This general approach is challenging, but it allows agents to ground language across many visually complex and semantically rich environments while also allowing us to readily run agents in new environments. In this paper we describe our motivation and goal, the initial progress we have made, and promising preliminary results on several diverse research environments and a variety of commercial video games.

Link do artigo

https://storage.googleapis.com/deepmind-media/DeepMind.com/…

RAT: Pensamentos aumentados por recuperação provocam raciocínio sensível ao contexto em geração de longo horizonte / RAT: Retrieval Augmented Thoughts Elicit Context-Aware Reasoning in Long-Horizon Generation

Introdução do artigo

Mostra que revisar iterativamente uma cadeia de pensamento com recuperação de informações pode melhorar significativamente o raciocínio e a geração de LLMs em tarefas de geração de longo horizonte. A ideia central é que cada etapa do pensamento é revisada com informações recuperadas relevantes para a consulta da tarefa e para as etapas de pensamento atuais e passadas. Retrieval-augmented thoughts (RAT) pode ser aplicado a diferentes modelos, como GPT-4 e CodeLLaMA-7b, para melhorar tarefas de geração de longo horizonte (por exemplo, escrita criativa e planejamento de tarefas corporificadas); RAT é uma abordagem de prompting zero-shot e supera significativamente baselines como prompting CoT zero-shot, RAG vanilla e outros.

Shows that iteratively revising a chain of thoughts with information retrieval can significantly improve llm reasoning and generation in long-horizon generation tasks; the key idea is that each thought step is revised with relevant retrieved information to the task query, the current and past thought steps; retrieval augmented thoughts (rat) can be applied to different models like gpt-4 and codellama-7b to improve long-horizon generation tasks (e.g., creative writing and embodied task planning); rat is a zero-shot prompting approach and provides significant improvements to baselines that include zero-shot cot prompting, vanilla rag, and other baselines.

Resumo do artigo (Abstract)

Exploramos como a revisão iterativa de uma cadeia de pensamento com a ajuda da recuperação de informações melhora significativamente a capacidade de raciocínio e geração de grandes modelos de linguagem em tarefas de geração de longo horizonte, ao mesmo tempo em que mitiga fortemente as alucinações. Em particular, o método proposto — retrieval-augmented thoughts (RAT) — revisa cada etapa do pensamento, uma a uma, com informações recuperadas relevantes para a consulta da tarefa e para as etapas de pensamento atuais e passadas, após a geração do CoT zero-shot inicial. Ao aplicar RAT a GPT-3.5, GPT-4 e CodeLLaMA-7b, o desempenho em várias tarefas de geração de longo horizonte melhora substancialmente, com aumento relativo médio das pontuações de avaliação de 13,63% em geração de código, 16,96% em raciocínio matemático, 19,2% em escrita criativa e 42,78% em planejamento de tarefas corporificadas. A página de demonstração pode ser acessada em https://craftjarvis.github.io/RAT

We explore how iterative revising a chain of thoughts with the help of information retrieval significantly improves large language models' reasoning and generation ability in long-horizon generation tasks, while hugely mitigating hallucination. In particular, the proposed method -- retrieval-augmented thoughts (RAT) -- revises each thought step one by one with retrieved information relevant to the task query, the current and the past thought steps, after the initial zero-shot CoT is generated. Applying RAT to GPT-3.5, GPT-4, and CodeLLaMA-7b substantially improves their performances on various long-horizon generation tasks; on average of relatively increasing rating scores by 13.63% on code generation, 16.96% on mathematical reasoning, 19.2% on creative writing, and 42.78% on embodied task planning. The demo page can be found at https://craftjarvis.github.io/RAT

Link do artigo

https://arxiv.org/abs/2403.05313

Quiet-STaR: modelos de linguagem podem aprender a pensar sozinhos antes de falar / Quiet-STaR: Language Models Can Teach Themselves to Think Before Speaking

Apresentação do artigo

Apresenta uma generalização do STaR, chamada Quiet-STaR, para permitir que modelos de linguagem (LMs) aprendam a raciocinar de formas mais gerais e escaláveis; o Quiet-STaR permite que os LMs gerem racionalizações em cada token para explicar o texto futuro; propõe um algoritmo de amostragem paralela por token que ajuda a melhorar as previsões do LM ao gerar pensamentos internos de forma eficiente; a geração de racionalizações é aprimorada com REINFORCE.

Presents a generalization of star, called quiet-star, to enable language models (lms) to learn to reason in more general and scalable ways; quiet-star enables lms to generate rationales at each token to explain future text; it proposes a token-wise parallel sampling algorithm that helps improve lm predictions by efficiently generating internal thoughts; the rationale generation is improved using reinforce.

Resumo do artigo (Abstract)

Ao escrever ou falar, as pessoas às vezes fazem uma pausa para pensar. Em trabalhos focados em raciocínio, ele costuma ser descrito como uma forma de responder perguntas ou concluir tarefas agentivas, mas o raciocínio está implícito em quase todo texto escrito. Por exemplo, isso se aplica às etapas não explicitadas entre as linhas de uma prova ou à teoria da mente subjacente a uma conversa. Em Self-Taught Reasoner (STaR, Zelikman et al. 2022), pensamentos úteis são aprendidos ao inferir justificativas a partir de exemplos few-shot em perguntas e respostas e ao aprender com os casos que levam à resposta correta. Idealmente, um modelo de linguagem deveria ser capaz de aprender a inferir justificativas não explicitadas em textos arbitrários, mas esse é um cenário muito restrito. Apresentamos o Quiet-STaR, uma versão generalizada do STaR em que LMs aprendem a gerar justificativas em cada token para explicar o texto futuro, melhorando suas previsões. Abordamos desafios importantes, incluindo 1) o custo computacional de gerar continuações, 2) o fato de que o LM inicialmente não sabe como gerar ou usar pensamentos internos, e 3) a necessidade de prever além de tokens seguintes individuais. Para resolver isso, propomos um algoritmo de amostragem paralela token a token, usando tokens aprendíveis que indicam o início e o fim de um pensamento, além de uma técnica estendida de teacher forcing. De forma encorajadora, as justificativas geradas ajudam de maneira desproporcional a modelar tokens difíceis de prever e melhoram a capacidade do LM de responder diretamente a perguntas difíceis. Em particular, após o pré-treinamento contínuo de um LM em um corpus de textos da internet com Quiet-STaR, observamos melhorias zero-shot em GSM8K (5.9% $\rightarrow$ 10.9%) e CommonsenseQA (36.3% $\rightarrow$ 47.2%), além de uma melhora na perplexidade de tokens difíceis em texto natural. Crucialmente, essas melhorias não exigem fine-tuning nessas tarefas. Quiet-STaR representa um passo em direção a LMs capazes de aprender a raciocinar de forma mais geral e escalável.

When writing and talking, people sometimes pause to think. Although reasoning-focused works have often framed reasoning as a method of answering questions or completing agentic tasks, reasoning is implicit in almost all written text. For example, this applies to the steps not stated between the lines of a proof or to the theory of mind underlying a conversation. In the Self-Taught Reasoner (STaR, Zelikman et al. 2022), useful thinking is learned by inferring rationales from few-shot examples in question-answering and learning from those that lead to a correct answer. This is a highly constrained setting -- ideally, a language model could instead learn to infer unstated rationales in arbitrary text. We present Quiet-STaR, a generalization of STaR in which LMs learn to generate rationales at each token to explain future text, improving their predictions. We address key challenges, including 1) the computational cost of generating continuations, 2) the fact that the LM does not initially know how to generate or use internal thoughts, and 3) the need to predict beyond individual next tokens. To resolve these, we propose a tokenwise parallel sampling algorithm, using learnable tokens indicating a thought's start and end, and an extended teacher-forcing technique. Encouragingly, generated rationales disproportionately help model difficult-to-predict tokens and improve the LM's ability to directly answer difficult questions. In particular, after continued pretraining of an LM on a corpus of internet text with Quiet-STaR, we find zero-shot improvements on GSM8K (5.9%$\rightarrow$10.9%) and CommonsenseQA (36.3%$\rightarrow$47.2%) and observe a perplexity improvement of difficult tokens in natural text. Crucially, these improvements require no fine-tuning on these tasks. Quiet-STaR marks a step towards LMs that can learn to reason in a more general and scalable way.

Link do artigo

https://arxiv.org/abs/2403.09629

Conflitos de conhecimento para LLMs: uma pesquisa / Knowledge Conflicts for LLMs: A Survey

Introdução ao artigo

Este artigo de survey classifica os problemas de conflito de conhecimento, comuns ao trabalhar com LLMs, em conflitos entre contexto e memória, entre contextos e dentro da memória, e oferece insights sobre as causas e possíveis formas de mitigar esses problemas de conflito de conhecimento.

An overview of the common issue of knowledge conflict when working with llms; the survey paper categorizes these conflicts into context-memory, inter-context, and intra-memory conflict; it also provides insights into causes and potential ways to mitigate these knowledge conflict issues.

Resumo do artigo (Abstract)

Esta pesquisa oferece uma análise aprofundada dos conflitos de conhecimento em grandes modelos de linguagem (LLMs), destacando os desafios complexos enfrentados ao combinar conhecimento contextual e paramétrico. O foco está em três categorias de conflitos de conhecimento: contexto-memória, entre contextos e intra-memória. Esses conflitos podem afetar significativamente a confiabilidade e o desempenho dos LLMs, especialmente em aplicações do mundo real, onde ruído e desinformação são comuns. Ao categorizar esses conflitos, explorar suas causas, examinar o comportamento dos LLMs sob tais conflitos e revisar as soluções disponíveis, esta pesquisa busca lançar luz sobre estratégias para melhorar a robustez dos LLMs, servindo assim como um recurso valioso para impulsionar a pesquisa nessa área em evolução.

This survey provides an in-depth analysis of knowledge conflicts for large language models (LLMs), highlighting the complex challenges they encounter when blending contextual and parametric knowledge. Our focus is on three categories of knowledge conflicts: context-memory, inter-context, and intra-memory conflict. These conflicts can significantly impact the trustworthiness and performance of LLMs, especially in real-world applications where noise and misinformation are common. By categorizing these conflicts, exploring the causes, examining the behaviors of LLMs under such conflicts, and reviewing available solutions, this survey aims to shed light on strategies for improving the robustness of LLMs, thereby serving as a valuable resource for advancing research in this evolving area.

Link do artigo

https://arxiv.org/abs/2403.08319

Roubar parte de um modelo de linguagem em produção / Stealing Part of a Production Language Model

Introdução ao artigo

Apresenta o primeiro ataque de roubo de modelo que extrai informações de modelos de linguagem em produção, como ChatGPT ou PaLM-2, e mostra que é possível recuperar a camada de projeção de embeddings de um modelo baseado em transformer por meio de acesso típico via API; como exemplo, toda a matriz de projeção foi extraída dos modelos openai ada e babbage por menos de 20 dólares.

Presents the first model-stealing attack that extracts information from production language models like chatgpt or palm-2; shows that it's possible to recover the embedding projection layer of a transformer-based model through typical api access; as an example, the entire projection matrix was extracted from the openai ada and babbage models for under $20.

Resumo do artigo (Abstract)

Apresentamos o primeiro ataque de roubo de modelo que extrai informações precisas e não triviais de modelos de linguagem de produção em caixa-preta, como o ChatGPT da OpenAI ou o PaLM-2 do Google. Especificamente, nosso ataque recupera a camada de projeção de embeddings (até simetrias) de um modelo transformer, dado um acesso típico via API. Por menos de 20 dólares, nosso ataque extrai a matriz de projeção completa dos modelos de linguagem Ada e Babbage da OpenAI. Com isso, confirmamos pela primeira vez que esses modelos de caixa-preta têm dimensão oculta de 1024 e 2048, respectivamente. Também recuperamos o tamanho exato da dimensão oculta do modelo gpt-3.5-turbo e estimamos que custaria menos de 2.000 dólares em consultas para recuperar toda a matriz de projeção. Concluímos com possíveis defesas e medidas de mitigação, além de discutir as implicações de possíveis trabalhos futuros que possam ampliar nosso ataque.

We introduce the first model-stealing attack that extracts precise, nontrivial information from black-box production language models like OpenAI's ChatGPT or Google's PaLM-2. Specifically, our attack recovers the embedding projection layer (up to symmetries) of a transformer model, given typical API access. For under $20 USD, our attack extracts the entire projection matrix of OpenAI's Ada and Babbage language models. We thereby confirm, for the first time, that these black-box models have a hidden dimension of 1024 and 2048, respectively. We also recover the exact hidden dimension size of the gpt-3.5-turbo model, and estimate it would cost under $2,000 in queries to recover the entire projection matrix. We conclude with potential defenses and mitigations, and discuss the implications of possible future work that could extend our attack.

Link do artigo

https://arxiv.org/abs/2403.06634

Branch-Train-MiX: misturando LLMs especialistas em um LLM Mixture-of-Experts / Branch-Train-MiX: Mixing Expert LLMs into a Mixture-of-Experts LLM

Introdução ao artigo

Propõe misturar LLMs especialistas em um LLM do tipo mixture-of-experts como uma abordagem mais eficiente em termos computacionais para treinar LLMs; mostrou-se mais eficiente do que treinar um LLM generalista maior ou vários LLMs especializados separados; a abordagem, BTX, primeiro treina em paralelo várias cópias de um LLM semente especializado em diferentes domínios (isto é, LLMs especialistas) e as mescla em um único LLM usando camadas feed-forward MoE, seguido por ajuste fino do modelo unificado completo.

Proposes mixing expert llms into a mixture-of-experts llm as a more compute-efficient approach for training llms; it's shown to be more efficient than training a larger generalist llm or several separate specialized llms; the approach, btx, first trains (in parallel) multiple copies of a seed llm specialized in different domains (i.e., expert llms) and merges them into a single llm using moe feed-forward layers, followed by fine-tuning of the overall unified model.

Resumo do artigo (Abstract)

Investigamos métodos eficientes para treinar grandes modelos de linguagem (LLMs) para que tenham capacidades em vários domínios especializados, como programação, raciocínio matemático e conhecimento de mundo. Nosso método, chamado Branch-Train-MiX (BTX), começa a partir de um modelo base, que é ramificado para treinar especialistas de forma massivamente paralela, com alta taxa de processamento e custo de comunicação reduzido. Depois que os especialistas individuais são treinados de forma assíncrona, o BTX reúne seus parâmetros feedforward como especialistas em camadas Mixture-of-Experts (MoE) e calcula a média dos parâmetros restantes, seguido por uma etapa de ajuste fino em MoE para aprender o roteamento no nível do token. O BTX generaliza dois casos especiais: o método Branch-Train-Merge, que não tem a etapa de ajuste fino em MoE para aprender o roteamento, e o sparse upcycling, que omite a etapa de treinar especialistas de forma assíncrona. Em comparação com abordagens alternativas, o BTX alcança o melhor equilíbrio entre precisão e eficiência.

We investigate efficient methods for training Large Language Models (LLMs) to possess capabilities in multiple specialized domains, such as coding, math reasoning and world knowledge. Our method, named Branch-Train-MiX (BTX), starts from a seed model, which is branched to train experts in embarrassingly parallel fashion with high throughput and reduced communication cost. After individual experts are asynchronously trained, BTX brings together their feedforward parameters as experts in Mixture-of-Expert (MoE) layers and averages the remaining parameters, followed by an MoE-finetuning stage to learn token-level routing. BTX generalizes two special cases, the Branch-Train-Merge method, which does not have the MoE finetuning stage to learn routing, and sparse upcycling, which omits the stage of training experts asynchronously. Compared to alternative approaches, BTX achieves the best accuracy-efficiency tradeoff.

Link do artigo

https://arxiv.org/abs/2403.07816

Grandes modelos de linguagem superam especialistas humanos na previsão de resultados em neurociência / Large language models surpass human experts in predicting neuroscience results

Apresentação do artigo

Propõe o BrainBench, um benchmark para avaliar a capacidade de modelos de linguagem de prever resultados em neurociência; constata que os modelos superam especialistas na previsão de resultados experimentais; e mostra que um modelo ajustado com literatura de neurociência teve desempenho ainda melhor.

Proposes a benchmark, brainbench, for evaluating the ability of llms to predict neuroscience results; finds that llms surpass experts in predicting experimental outcomes; an llm tuned on neuroscience literature was shown to perform even better.

Resumo do artigo (Abstract)

Descobertas científicas muitas vezes dependem da síntese de décadas de pesquisa, uma tarefa que potencialmente excede a capacidade humana de processar informações. Grandes modelos de linguagem (LLMs) oferecem uma solução. LLMs treinados na vasta literatura científica podem integrar achados ruidosos, porém inter-relacionados, para prever novos resultados melhor do que especialistas humanos. Para avaliar essa possibilidade, criamos o BrainBench, um benchmark prospectivo para prever resultados em neurociência. Descobrimos que os LLMs superam especialistas na previsão de resultados experimentais. O BrainGPT, um LLM que ajustamos com base na literatura de neurociência, teve desempenho ainda melhor. Assim como especialistas humanos, quando os LLMs estavam confiantes em suas previsões, havia maior probabilidade de estarem corretos, o que prenuncia um futuro em que humanos e LLMs trabalharão juntos para fazer descobertas. Nossa abordagem não é específica da neurociência e pode ser transferida para outros campos intensivos em conhecimento.

Scientific discoveries often hinge on synthesizing decades of research, a task that potentially outstrips human information processing capacities. Large language models (LLMs) offer a solution. LLMs trained on the vast scientific literature could potentially integrate noisy yet interrelated findings to forecast novel results better than human experts. To evaluate this possibility, we created BrainBench, a forward-looking benchmark for predicting neuroscience results. We find that LLMs surpass experts in predicting experimental outcomes. BrainGPT, an LLM we tuned on the neuroscience literature, performed better yet. Like human experts, when LLMs were confident in their predictions, they were more likely to be correct, which presages a future where humans and LLMs team together to make discoveries. Our approach is not neuroscience-specific and is transferable to other knowledge-intensive endeavors.

Link do artigo

https://arxiv.org/abs/2403.03230

C4AI Command-R

Apresentação do artigo

O command-r, um modelo de 35 bilhões de parâmetros com janela de contexto de 128k, otimizado para casos de uso como raciocínio, sumarização e perguntas e respostas, com capacidade de geração multilíngue avaliada em 10 idiomas e uso de ferramentas e recursos de RAG com alto desempenho, foi lançado para fins de pesquisa.

A 35b parameter model, with a context length of 128k, optimized for use cases that include reasoning, summarization, and question answering; command-r has the capability for multilingual generation evaluated in 10 languages and performant tool use and rag capabilities; it has been released for research purposes.

Link do artigo

https://huggingface.co/CohereForAI/c4ai-command-r-v01

A similaridade de cosseno de embeddings é realmente sobre similaridade? / Is Cosine-Similarity of Embeddings Really About Similarity?

Apresentação do artigo

Estuda embeddings derivados de modelos lineares regularizados e deduz analiticamente como a similaridade por cosseno pode produzir similaridades arbitrárias e sem significado; também constata que, para alguns modelos lineares, as similaridades nem sequer são únicas, enquanto em outros são controladas pela regularização; os autores alertam contra o uso cego da similaridade por cosseno e apresentam considerações e alternativas.

Studies embeddings derived from regularized linear models and derive analytically how cosine-similarity can yield arbitrary and meaningless similarities; also finds that for some linear models, the similarities are not even unique and others are controlled by regularization; the authors caution against blindly using cosine similarity and presents considerations and alternatives.

Resumo do artigo (Abstract)

Similaridade por cosseno é o cosseno do ângulo entre dois vetores, ou, de forma equivalente, o produto escalar entre suas normalizações. Uma aplicação popular é quantificar a similaridade semântica entre objetos de alta dimensionalidade aplicando similaridade por cosseno a um embedding de características de baixa dimensionalidade aprendido. Na prática, isso pode funcionar melhor, mas às vezes também pior, do que o produto escalar não normalizado entre vetores embutidos. Para obter insights sobre essa observação empírica, estudamos embeddings derivados de modelos lineares regularizados, nos quais soluções em forma fechada facilitam insights analíticos. Deduzi mos analiticamente como a similaridade por cosseno pode produzir 'similaridades' arbitrárias e, portanto, sem significado. Para alguns modelos lineares, as similaridades nem sequer são únicas, enquanto para outros são implicitamente controladas pela regularização. Discutimos implicações além dos modelos lineares: uma combinação de diferentes regularizações é empregada ao treinar modelos profundos; elas têm efeitos implícitos e não intencionais ao se calcular a similaridade por cosseno dos embeddings resultantes, tornando os resultados opacos e possivelmente arbitrários. Com base nesses insights, alertamos contra o uso cego da similaridade por cosseno e delineamos alternativas.

Cosine-similarity is the cosine of the angle between two vectors, or equivalently the dot product between their normalizations. A popular application is to quantify semantic similarity between high-dimensional objects by applying cosine-similarity to a learned low-dimensional feature embedding. This can work better but sometimes also worse than the unnormalized dot-product between embedded vectors in practice. To gain insight into this empirical observation, we study embeddings derived from regularized linear models, where closed-form solutions facilitate analytical insights. We derive analytically how cosine-similarity can yield arbitrary and therefore meaningless `similarities.' For some linear models the similarities are not even unique, while for others they are implicitly controlled by the regularization. We discuss implications beyond linear models: a combination of different regularizations are employed when learning deep models; these have implicit and unintended effects when taking cosine-similarities of the resulting embeddings, rendering results opaque and possibly arbitrary. Based on these insights, we caution against blindly using cosine-similarity and outline alternatives.

Link do artigo

https://arxiv.org/abs/2403.05440

MM1: métodos, análise e insights do pré-treinamento de LLM multimodal / MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training

Apresentação do artigo

Fornece uma visão abrangente de métodos, análise e insights sobre o pré-treinamento de LLM multimodal; estuda diferentes componentes de arquitetura e constata que misturar cuidadosamente dados de legendas de imagens, imagem-texto intercalados e somente texto é fundamental para alcançar desempenho de ponta; também propõe uma família de modelos multimodais com até 30b parâmetros que alcançam sota em métricas de pré-treinamento e incluem propriedades como aprendizado em contexto aprimorado, raciocínio com múltiplas imagens e habilitação de prompting few-shot com chain-of-thought.

Provides a comprehensive overview of methods, analysis, and insights into multimodal llm pre-training; studies different architecture components and finds that carefully mixing image-caption, interleaved image-text, and text-only data is key for state-of-the-art performance; it also proposes a family of multimodal models up to 30b parameters that achieve sota in pre-training metrics and include properties such as enhanced in-context learning, multi-image reasoning, enabling few-shot chain-of-thought prompting.

Resumo do artigo (Abstract)

Este trabalho descreve como construir modelos de linguagem multimodais de grande porte (MLLMs) com alto desempenho. Em particular, investiga a importância de vários componentes de arquitetura e da seleção de dados. Por meio de ablações cuidadosas e abrangentes do codificador de imagens, do conector visão-linguagem e de várias escolhas de dados de pré-treinamento, foram identificadas algumas lições importantes de design. Por exemplo, foi demonstrado que realizar o pré-treinamento multimodal em larga escala com uma combinação cuidadosa de dados de imagem-legenda, imagem-texto intercalados e apenas texto é crucial para alcançar resultados few-shot de ponta (SOTA) em vários benchmarks, em comparação com outros resultados de pré-treinamento já publicados. Além disso, mostra-se que o codificador de imagens, juntamente com a resolução da imagem e a quantidade de tokens de imagem, tem impacto significativo, enquanto o design do conector visão-linguagem é relativamente menos importante. Ao escalar a receita apresentada, foi construído o MM1, uma família de modelos multimodais com até 30B parâmetros, composta por modelos densos e variantes mixture-of-experts (MoE), que é SOTA em métricas de pré-treinamento e alcança desempenho competitivo após fine-tuning supervisionado em diversos benchmarks multimodais já estabelecidos. Graças ao pré-treinamento em larga escala, o MM1 apresenta propriedades atraentes, como aprendizado em contexto aprimorado e raciocínio com múltiplas imagens, possibilitando o uso de chain-of-thought prompting em few-shot.

In this work, we discuss building performant Multimodal Large Language Models (MLLMs). In particular, we study the importance of various architecture components and data choices. Through careful and comprehensive ablations of the image encoder, the vision language connector, and various pre-training data choices, we identified several crucial design lessons. For example, we demonstrate that for large-scale multimodal pre-training using a careful mix of image-caption, interleaved image-text, and text-only data is crucial for achieving state-of-the-art (SOTA) few-shot results across multiple benchmarks, compared to other published pre-training results. Further, we show that the image encoder together with image resolution and the image token count has substantial impact, while the vision-language connector design is of comparatively negligible importance. By scaling up the presented recipe, we build MM1, a family of multimodal models up to 30B parameters, consisting of both dense models and mixture-of-experts (MoE) variants, that are SOTA in pre-training metrics and achieve competitive performance after supervised fine-tuning on a range of established multimodal benchmarks. Thanks to large-scale pre-training, MM1 enjoys appealing properties such as enhanced in-context learning, and multi-image reasoning, enabling few-shot chain-of-thought prompting.

Link do artigo

https://arxiv.org/abs/2403.09611

Texto original

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-6a6

Este texto foi resumido com um modelo GPT, portanto pode conter erros. Consulte também o texto original no link ao final! Se encontrar trechos estranhos ou incorretos durante a leitura, deixe um comentário para avisar.

⚠️Anúncio⚠️: Este texto, organizado pela comunidade coreana de usuários do PyTorch, foi útil para você? Se se cadastrar como membro, enviaremos os principais textos por e-mail! O padrão é Weekly, mas também é possível mudar para Daily.

6 comentários

prelude9903 2024-03-19

Você pode informar qual ferramenta de tradução automática foi usada?

ninebow 2024-03-19

Sim, estou usando o DeepL haha.
Recentemente ficou possível criar também um glossário de tradução para coreano, então experimentei usar, mas houve um problema orz...

libner 2024-03-19

Na apresentação do artigo na parte de RAT, parece que rat e rag foram traduzidos respectivamente como rato e pano de chão. Provavelmente o modelo apenas leu as letras minúsculas literalmente.

ninebow 2024-03-20

Fiz a seguinte correção. Obrigado! :D

Mostra que revisar iterativamente a cadeia de pensamento (CoT) por meio de recuperação de informações pode melhorar significativamente o raciocínio e a geração de LLMs em tarefas de geração de longo alcance. A ideia central é que cada etapa do raciocínio seja revisada com informações recuperadas relevantes para a consulta da tarefa e para as etapas atuais e anteriores do pensamento. O Retrieval-Augmented Thoughts (RAT) é aplicado a outros modelos, como GPT-4 e CodeLlama-7b, em tarefas de geração de longo alcance (por exemplo, escrita criativa e planejamento detalhado de tarefas); o RAT é uma abordagem de prompt zero-shot e supera amplamente baselines, incluindo prompt ingênuo zero-shot, RAG básico e outros referenciais.

ninebow 2024-03-19

Opa, é isso mesmo; vou corrigir o texto original haha
Obrigado!

ninebow 2024-03-19

Ops, o título... por favor, altere para 'Principais artigos de ML da semana';;

[2024/03/11 ~ 03/17] Principais artigos de ML desta semana (Top ML Papers of the Week)