19] Os principais artigos de ML desta semana (Top ML Papers of the Week)

(discuss.pytorch.kr)

3 pontos por ninebow 2024-05-22 | Ainda não há comentários. | Compartilhar no WhatsApp

Fizemos uma tradução automática dos textos sobre artigos de ML publicados semanalmente pela DAIR.AI.
Uma tendência importante observável nos artigos submetidos nesta semana é que muitos estudos estão focados em processamento de linguagem natural (NLP) e aprendizado por reforço (RL). Por exemplo, "GPT-4o", "Fine-tuning and Hallucinations" e "Zero-shot Tokenizer Transfer" tratam de tecnologias e metodologias recentes relacionadas a processamento de linguagem natural e, em especial, exploram avanços em áreas como modelos generativos e aprendizado por transferência de tokenizers. Além disso, "RLHF Workflow" apresenta um estudo sobre o desenho de processos de aprendizado eficientes com uso de aprendizado por reforço, o que pode ser visto como uma tentativa de ampliar as possibilidades de aplicação prática no campo de RL.
Essa tendência reflete a importância cada vez maior do processamento de linguagem natural e do aprendizado por reforço, que desempenham um papel central no avanço das tecnologias de inteligência artificial, especialmente em machine learning e deep learning. Nos últimos anos, com o crescimento explosivo de modelos de geração de linguagem como o GPT, o escopo de suas aplicações continuou a se expandir, o que também levou pesquisadores a dedicar grande atenção a estudos voltados a ajustar esses modelos de forma mais sofisticada e a compensar limitações dos modelos existentes. Além disso, o aprendizado por reforço se consolidou como uma técnica importante para otimizar processos de tomada de decisão e melhorar a capacidade de aprendizado em ambientes complexos, alinhando-se à atual tendência de pesquisa de maximizar a eficiência do aprendizado.
Portanto, os artigos submetidos nesta semana mostram bem em que direção os esforços de pesquisa e desenvolvimento no meio acadêmico e na indústria estão avançando. O processamento de linguagem natural é o núcleo das tecnologias que buscam tornar a interação entre humanos e máquinas mais natural e eficiente, e o aprendizado por reforço desempenha um papel importante na otimização de processos de tomada de decisão baseados nessas interações. Essas tendências de pesquisa serão um indicador importante da direção futura das tecnologias de inteligência artificial, que continuarão a evoluir.

GPT-4o

Introdução

Um novo modelo com capacidades de raciocínio multimodal e suporte em tempo real para áudio, visão e texto; ele pode aceitar como entrada qualquer combinação de texto, áudio, imagem e vídeo para gerar combinações de saídas em texto, áudio e imagem; foi relatado que iguala o desempenho do GPT-4 Turbo sendo, via API, 50% mais rápido e mais barato.

A new model with multimodal reasoning capabilities with real-time support across audio, vision, and text; it can accept as input any combination of text, audio, image, and video to generate combinations of text, audio, and image outputs; it’s reported to match GPT-4 Turbo performance while being 50% much faster and cheaper via APIs.

Links relacionados

https://openai.com/index/hello-gpt-4o/

Gemini 1.5 Flash / Gemini 1.5 Flash

Apresentação do artigo

Um modelo decoder transformer leve com janela de contexto de 2M e capacidades multimodais; foi projetado para eficiência e oferece a geração de saída mais rápida entre todos os modelos em vários idiomas avaliados; no geral, o Gemini 1.5 Flash apresenta desempenho consistentemente superior ao Gemini 1.0 Pro e, em vários benchmarks, mostrou desempenho em nível semelhante ao 1.0 Ultra.

A lightweight transformer decoder model with a 2M context window with multimodal capabilities; it is designed for efficiency and yields the fastest output generation of all models on several evaluated languages; overall, Gemini 1.5 Flash performs uniformly better compared to Gemini 1.0 Pro and even performs at a similar level to 1.0 Ultra on several benchmarks.

Resumo do artigo (Abstract)

Este relatório apresenta a família de modelos Gemini 1.5, representando a próxima geração de modelos multimodais altamente eficientes em termos computacionais, capazes de recordar e raciocinar sobre informações detalhadas a partir de milhões de tokens de contexto, incluindo vários documentos longos e horas de vídeo e áudio. A família inclui dois novos modelos: (1) uma versão atualizada do Gemini 1.5 Pro, que supera a versão de fevereiro na grande maioria das capacidades e benchmarks; (2) Gemini 1.5 Flash, uma variante mais leve projetada para eficiência com regressão mínima de qualidade. Os modelos Gemini 1.5 alcançam recall quase perfeito em tarefas de recuperação com contexto longo em diferentes modalidades, melhoram o estado da arte em QA de documentos longos, QA de vídeos longos e ASR de contexto longo, e igualam ou superam o desempenho de ponta do Gemini 1.0 Ultra em um amplo conjunto de benchmarks. Ao estudar os limites da capacidade de contexto longo do Gemini 1.5, constatou-se melhoria contínua na previsão do próximo token e recuperação quase perfeita (>99%) até pelo menos 10M tokens, um salto de geração em relação a modelos existentes como Claude 3.0 (200 mil) e GPT-4 Turbo (128 mil). Por fim, o relatório destaca casos de uso no mundo real, como a colaboração do Gemini 1.5 com profissionais na conclusão de tarefas, alcançando economia de 26% a 75% de tempo em 10 categorias profissionais diferentes, bem como novas capacidades surpreendentes de grandes modelos de linguagem na fronteira: quando recebe um manual gramatical de Kalamang, um idioma com menos de 200 falantes no mundo, o modelo aprende a traduzir do inglês para o Kalamang em um nível semelhante ao de uma pessoa que aprendeu a partir do mesmo conteúdo.

In this report, we introduce the Gemini 1.5 family of models, representing the next generation of highly compute-efficient multimodal models capable of recalling and reasoning over fine-grained information from millions of tokens of context, including multiple long documents and hours of video and audio. The family includes two new models: (1) an updated Gemini 1.5 Pro, which exceeds the February version on the great majority of capabilities and benchmarks; (2) Gemini 1.5 Flash, a more lightweight variant designed for efficiency with minimal regression in quality. Gemini 1.5 models achieve near-perfect recall on long-context retrieval tasks across modalities, improve the state-of-the-art in long-document QA, long-video QA and long-context ASR, and match or surpass Gemini 1.0 Ultra’s state-of-the-art performance across a broad set of benchmarks. Studying the limits of Gemini 1.5’s long-context ability, we find continued improvement in next-token prediction and near-perfect retrieval (>99%) up to at least 10M tokens, a generational leap over existing models such as Claude 3.0 (200k) and GPT-4 Turbo (128k). Finally, we highlight real-world use cases, such as Gemini 1.5 collaborating with professions on their completing their tasks achieving 26 to 75% time savings across 10 different job categories, as well as surprising new capabilities of large language models at the frontier; when given a grammar manual for Kalamang, a language with fewer than 200 speakers worldwide, the model learns to translate English to Kalamang at a similar level to a person who learned from the same content.

Link do artigo

https://storage.googleapis.com/deepmind-media/gemini/…

Veo

Introdução

O modelo de geração de vídeo mais avançado do Google DeepMind gera vídeos de alta qualidade em resolução 1080p com mais de 1 minuto; oferece suporte a edição com máscara em vídeos e também pode gerar vídeos a partir de uma imagem de entrada junto com texto; o modelo pode estender clipes de vídeo para 60 segundos ou mais, mantendo a consistência com seu latent diffusion transformer.

Google Deepmind’s most capable video generation model generates high-quality, 1080p resolution videos beyond 1 minute; it supports masked editing on videos and can also generate videos with an input image along with text; the model can extend video clips to 60 seconds and more while keeping consistency with its latent diffusion transformer.

Links relacionados

https://deepmind.google/technologies/veo/

Chameleon: modelos fundacionais de fusão antecipada multimodal mista / Chameleon: Mixed-Modal Early-Fusion Foundation Models

Introdução ao artigo

Uma família de modelos multimodais mistos baseados em tokens para gerar imagens e texto em qualquer sequência arbitrária; relata desempenho de estado da arte em legendagem de imagens, supera o Llama 2 em tarefas apenas de texto e também é competitivo com Mixtral 8x7B e Gemini-Pro; supera o desempenho de Gemini Pro e GPT-4V em uma nova avaliação de geração multimodal mista de formato longo.

A family of token-based mixed-modal models for generating images and text in any arbitrary sequence; reports state-of-the-art performance in image captioning and outperforms Llama 2 in text-only tasks and is also competitive with Mixtral 8x7B and Gemini-Pro; exceeds the performance of Gemini Pro and GPT-4V on a new long-form mixed-modal generation evaluation.

Resumo do artigo (Abstract)

Apresentamos o Chameleon, uma família de modelos multimodais mistos baseados em tokens com fusão antecipada, capazes de compreender e gerar imagens e texto em qualquer sequência arbitrária. Descrevemos uma abordagem de treinamento estável desde o início, uma receita de alinhamento e uma parametrização arquitetural adaptada ao cenário multimodal misto baseado em tokens com fusão antecipada. Os modelos são avaliados em uma gama abrangente de tarefas, incluindo resposta a perguntas visuais, legendagem de imagens, geração de texto, geração de imagens e geração multimodal mista de formato longo. O Chameleon demonstra capacidades amplas e gerais, incluindo desempenho de ponta em tarefas de legendagem de imagens, supera o Llama-2 em tarefas somente de texto enquanto compete com modelos como Mixtral 8x7B e Gemini-Pro, e realiza geração de imagens não trivial, tudo em um único modelo. Também iguala ou supera o desempenho de modelos muito maiores, incluindo Gemini Pro e GPT-4V, de acordo com avaliações humanas em uma nova avaliação de geração multimodal mista de formato longo, na qual o prompt ou as saídas contêm sequências mistas de imagens e texto. O Chameleon representa um passo importante rumo à modelagem unificada de documentos multimodais completos.

We present Chameleon, a family of early-fusion token-based mixed-modal models capable of understanding and generating images and text in any arbitrary sequence. We outline a stable training approach from inception, an alignment recipe, and an architectural parameterization tailored for the early-fusion, token-based, mixed-modal setting. The models are evaluated on a comprehensive range of tasks, including visual question answering, image captioning, text generation, image generation, and long-form mixed modal generation. Chameleon demonstrates broad and general capabilities, including state-of-the-art performance in image captioning tasks, outperforms Llama-2 in text-only tasks while being competitive with models such as Mixtral 8x7B and Gemini-Pro, and performs non-trivial image generation, all in a single model. It also matches or exceeds the performance of much larger models, including Gemini Pro and GPT-4V, according to human judgments on a new long-form mixed-modal generation evaluation, where either the prompt or outputs contain mixed sequences of both images and text. Chameleon marks a significant step forward in a unified modeling of full multimodal documents.

Link do artigo

https://arxiv.org/abs/2405.09818

Ajustar finamente LLMs com novo conhecimento incentiva alucinações? / Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?

Apresentação do artigo

Estuda o impacto do ajuste fino com novo conhecimento sobre a tendência à alucinação dos LLMs e, ao definir exemplos de ajuste fino que incluem novo conhecimento, mostra que os modelos têm dificuldade para adquirir novo conhecimento factual por meio de ajuste fino, além de constatar que, à medida que esse novo conhecimento é aprendido, a tendência do modelo a alucinar aumenta.

Studies the impact of fine-tuning on new knowledge on the hallucination tendencies of LLMs; the setup includes fine-tuning examples that include new knowledge; shows that LLMs struggle to acquire new factual knowledge via fine-tuning; also finds that as new knowledge is learned it increases the model’s tendency to hallucinate.

Resumo do artigo (Abstract)

Quando grandes modelos de linguagem são alinhados por meio de ajuste fino supervisionado, eles podem encontrar novas informações factuais que não foram adquiridas durante o pré-treinamento. Costuma-se conjecturar que isso pode ensinar ao modelo o comportamento de alucinar respostas factualmente incorretas, já que ele é treinado para gerar fatos que não estão fundamentados em seu conhecimento pré-existente. Neste trabalho, estudamos o impacto dessa exposição a novo conhecimento sobre a capacidade do modelo ajustado de utilizar seu conhecimento pré-existente. Para isso, projetamos uma configuração controlada, focada em QA de livro fechado, em que variamos a proporção de exemplos de ajuste fino que introduzem novo conhecimento. Demonstramos que grandes modelos de linguagem têm dificuldade para adquirir novo conhecimento factual por meio de ajuste fino, pois exemplos de ajuste fino que introduzem novo conhecimento são aprendidos significativamente mais devagar do que aqueles consistentes com o conhecimento do modelo. No entanto, também constatamos que, à medida que os exemplos com novo conhecimento acabam sendo aprendidos, eles aumentam linearmente a tendência do modelo a alucinar. Em conjunto, nossos resultados destacam o risco de introduzir novo conhecimento factual por meio de ajuste fino e sustentam a visão de que grandes modelos de linguagem adquirem conhecimento factual principalmente no pré-treinamento, enquanto o ajuste fino os ensina a usá-lo com mais eficiência.

When large language models are aligned via supervised fine-tuning, they may encounter new factual information that was not acquired through pre-training. It is often conjectured that this can teach the model the behavior of hallucinating factually incorrect responses, as the model is trained to generate facts that are not grounded in its pre-existing knowledge. In this work, we study the impact of such exposure to new knowledge on the capability of the fine-tuned model to utilize its pre-existing knowledge. To this end, we design a controlled setup, focused on closed-book QA, where we vary the proportion of the fine-tuning examples that introduce new knowledge. We demonstrate that large language models struggle to acquire new factual knowledge through fine-tuning, as fine-tuning examples that introduce new knowledge are learned significantly slower than those consistent with the model's knowledge. However, we also find that as the examples with new knowledge are eventually learned, they linearly increase the model's tendency to hallucinate. Taken together, our results highlight the risk in introducing new factual knowledge through fine-tuning, and support the view that large language models mostly acquire factual knowledge through pre-training, whereas fine-tuning teaches them to use it more efficiently.

Link do artigo

https://arxiv.org/abs/2405.05904

Transferência zero-shot de tokenizador / Zero-Shot Tokenizer Transfer

Introdução ao artigo

Relata o treinamento de uma hipernetwork que recebe um tokenizador como entrada e prevê os embeddings correspondentes, demonstrando generalização para novos tokenizadores com LLMs codificadores e decodificadores, e mostrando que esse método alcança desempenho próximo ao do modelo original em tarefas multilíngues e de código, ao mesmo tempo que reduz o comprimento das sequências tokenizadas.

Trains a hypernetwork taking a tokenizer as input and predicting the corresponding embeddings; it demonstrates generalization to new tokenizers both with encoder and decoder LLMs; reports that the method achieves performance close to the original models' performance in cross-lingual and coding tasks while reducing the length of the tokenized sequence.

Resumo do artigo (Abstract)

Os modelos de linguagem (LMs) são vinculados ao seu tokenizador, que mapeia texto bruto para uma sequência de itens de vocabulário (tokens). Por exemplo, um LM treinado principalmente em inglês ainda pode funcionar bem em outras línguas naturais e linguagens de programação, mas sua eficiência pode cair drasticamente devido a um tokenizador centrado no inglês. Para mitigar isso, deve ser possível trocar, em tempo real, o tokenizador original do LM por um tokenizador arbitrário sem degradar o desempenho. Assim, neste trabalho, definimos um novo problema: Zero-Shot Tokenizer Transfer (ZeTT). O desafio central do ZeTT é encontrar embeddings para os tokens no vocabulário do novo tokenizador. Como heurísticas anteriores para inicializar embeddings frequentemente têm desempenho equivalente ao acaso em um cenário de ZeTT, propomos uma nova solução: treinamos uma hipernetwork que recebe um tokenizador como entrada e prevê os embeddings correspondentes. Demonstramos empiricamente que essa hipernetwork generaliza para novos tokenizadores tanto com codificadores (por exemplo, XLM-R) quanto com LLMs decodificadores (por exemplo, Mistral-7B). Nosso método se aproxima do desempenho dos modelos originais em tarefas multilíngues e de código, ao mesmo tempo que reduz de forma significativa o comprimento da sequência tokenizada. Também constatamos que a lacuna restante pode ser rapidamente reduzida com treinamento contínuo em menos de 1B tokens. Por fim, mostramos que uma hipernetwork ZeTT treinada para um (L)LM base também pode ser aplicada a variantes ajustadas por fine-tuning sem treinamento adicional. No geral, nossos resultados representam um avanço substancial rumo à dissociação entre LMs e seus tokenizadores.

Language models (LMs) are bound to their tokenizer, which maps raw text to a sequence of vocabulary items (tokens). This restricts their flexibility: for example, LMs trained primarily on English may still perform well in other natural and programming languages, but have vastly decreased efficiency due to their English-centric tokenizer. To mitigate this, we should be able to swap the original LM tokenizer with an arbitrary one, on the fly, without degrading performance. Hence, in this work we define a new problem: Zero-Shot Tokenizer Transfer (ZeTT). The challenge at the core of ZeTT is finding embeddings for the tokens in the vocabulary of the new tokenizer. Since prior heuristics for initializing embeddings often perform at chance level in a ZeTT setting, we propose a new solution: we train a hypernetwork taking a tokenizer as input and predicting the corresponding embeddings. We empirically demonstrate that the hypernetwork generalizes to new tokenizers both with encoder (e.g., XLM-R) and decoder LLMs (e.g., Mistral-7B). Our method comes close to the original models' performance in cross-lingual and coding tasks while markedly reducing the length of the tokenized sequence. We also find that the remaining gap can be quickly closed by continued training on less than 1B tokens. Finally, we show that a ZeTT hypernetwork trained for a base (L)LM can also be applied to fine-tuned variants without extra training. Overall, our results make substantial strides toward detaching LMs from their tokenizer.

Link do artigo

https://arxiv.org/abs/2405.07883

WavCraft: edição e geração de áudio com grandes modelos de linguagem / WavCraft: Audio Editing and Generation with Large Language Models

Introdução ao artigo

Utiliza LLMs para conectar modelos específicos de tarefa voltados à criação e edição de conteúdo de áudio, decompondo as instruções do usuário em várias tarefas e tratando cada uma de forma colaborativa com o módulo correspondente, permitindo que os usuários interajam e produzam conteúdo de áudio sem comandos explícitos.

Leverages LLMs to connect task-specific models for audio content creation and editing; decomposes users' instructions into several tasks and tackles each task collaboratively with the particular module; it can enable users to interact and produce audio content without explicit commands

Resumo do artigo (Abstract)

Apresentamos o WavCraft, um sistema integrado que aproveita grandes modelos de linguagem (LLMs) para conectar diversos modelos específicos por tarefa para criação e edição de conteúdo de áudio. Especificamente, o WavCraft descreve em linguagem natural o conteúdo de materiais de áudio brutos e orienta o LLM com base nas descrições do áudio e nas solicitações do usuário. O WavCraft aproveita a capacidade de aprendizado em contexto do LLM para decompor as instruções dos usuários em várias tarefas e tratar cada uma delas em colaboração com o módulo específico. Por meio da decomposição de tarefas, junto com um conjunto de modelos específicos por tarefa, o WavCraft segue a instrução de entrada para criar ou editar conteúdo de áudio com mais detalhes e justificativas, facilitando o controle do usuário. Além disso, o WavCraft é capaz de cooperar com os usuários por meio de interação em diálogo e até produzir conteúdo de áudio sem comandos explícitos do usuário. Os resultados experimentais mostram que o WavCraft apresenta desempenho superior aos métodos existentes, especialmente ao ajustar regiões locais de clipes de áudio. Além disso, o WavCraft pode seguir instruções complexas para editar e criar conteúdo de áudio sobre gravações de entrada, podendo apoiar produtores de áudio em uma ampla gama de aplicações. A implementação e as demos podem ser encontradas aqui (https://github.com/JinhuaLiang/WavCraft).

Introduzimos o WavCraft, um sistema coletivo que utiliza grandes modelos de linguagem (LLMs) para conectar diversos modelos específicos por tarefa para criação e edição de conteúdo de áudio. Especificamente, o WavCraft descreve em linguagem natural o conteúdo de materiais de áudio brutos e aciona o LLM condicionado às descrições do áudio e às solicitações do usuário. O WavCraft aproveita a capacidade de aprendizado em contexto do LLM para decompor as instruções dos usuários em várias tarefas e abordar cada tarefa em colaboração com o módulo específico. Por meio da decomposição de tarefas, juntamente com um conjunto de modelos específicos por tarefa, o WavCraft segue a instrução de entrada para criar ou editar conteúdo de áudio com mais detalhes e justificativas, facilitando o controle do usuário. Além disso, o WavCraft é capaz de cooperar com os usuários por meio de interação em diálogo e até produzir o conteúdo de áudio sem comandos explícitos do usuário. Experimentos demonstram que o WavCraft apresenta desempenho melhor do que os métodos existentes, especialmente ao ajustar regiões locais de clipes de áudio. Além disso, o WavCraft pode seguir instruções complexas para editar e criar conteúdo de áudio sobre gravações de entrada, ajudando produtores de áudio em uma gama mais ampla de aplicações. Nossa implementação e demos estão disponíveis em https://github.com/JinhuaLiang/WavCraft.

Link do artigo

https://arxiv.org/abs/2403.09527v3

Fluxo de trabalho de RLHF: da modelagem de recompensa ao RLHF online / RLHF Workflow: From Reward Modeling to Online RLHF

Introdução do artigo

Fornece uma receita facilmente reproduzível para RLHF iterativo online e discute os insights teóricos, os princípios algorítmicos do RLHF iterativo online e sua implementação prática.

Fornece uma receita facilmente reproduzível para RLHF iterativo online; discute os insights teóricos e os princípios algorítmicos do RLHF iterativo online, bem como a implementação prática.

Resumo(Abstract)

Este relatório técnico apresenta o fluxo de trabalho de Online Iterative Reinforcement Learning from Human Feedback (RLHF), amplamente relatado na literatura recente sobre large language models (LLMs) como muito superior à sua contraparte offline. No entanto, os projetos open source de RLHF existentes ainda estão, em grande parte, limitados ao ambiente de aprendizado offline. Neste relatório técnico, nosso objetivo é preencher essa lacuna e fornecer uma receita detalhada e fácil de reproduzir para RLHF iterativo online. Em particular, como o feedback humano online normalmente é inviável para comunidades open source com recursos limitados, começamos construindo modelos de preferência com um conjunto diverso de datasets open source e usamos o modelo de preferência proxy construído para aproximar o feedback humano. Em seguida, discutimos os insights teóricos e os princípios algorítmicos por trás do RLHF iterativo online, seguidos de uma implementação prática detalhada. Nosso LLM treinado, SFR-Iterative-DPO-LLaMA-3-8B-R, alcançou desempenho impressionante em benchmarks de chatbots LLM, incluindo AlpacaEval-2, Arena-Hard e MT-Bench, bem como em outros benchmarks acadêmicos, como HumanEval e TruthfulQA. Mostramos que supervised fine-tuning (SFT) e RLHF iterativo podem obter desempenho de ponta com datasets totalmente open source. Além disso, disponibilizamos publicamente os modelos, os datasets selecionados e guias de código abrangentes passo a passo. Para mais detalhes, consulte https://github.com/RLHFlow/RLHF-Reward-Modeling e https://github.com/RLHFlow/Online-RLHF.

We present the workflow of Online Iterative Reinforcement Learning from Human Feedback (RLHF) in this technical report, which is widely reported to outperform its offline counterpart by a large margin in the recent large language model (LLM) literature. However, existing open-source RLHF projects are still largely confined to the offline learning setting. In this technical report, we aim to fill in this gap and provide a detailed recipe that is easy to reproduce for online iterative RLHF. In particular, since online human feedback is usually infeasible for open-source communities with limited resources, we start by constructing preference models using a diverse set of open-source datasets and use the constructed proxy preference model to approximate human feedback. Then, we discuss the theoretical insights and algorithmic principles behind online iterative RLHF, followed by a detailed practical implementation. Our trained LLM, SFR-Iterative-DPO-LLaMA-3-8B-R, achieves impressive performance on LLM chatbot benchmarks, including AlpacaEval-2, Arena-Hard, and MT-Bench, as well as other academic benchmarks such as HumanEval and TruthfulQA. We have shown that supervised fine-tuning (SFT) and iterative RLHF can obtain state-of-the-art performance with fully open-source datasets. Further, we have made our models, curated datasets, and comprehensive step-by-step code guidebooks publicly available. Please refer to https://github.com/RLHFlow/RLHF-Reward-Modeling and https://github.com/RLHFlow/Online-RLHF for more detailed information.

Link do artigo

https://arxiv.org/abs/2405.07863v1

Armazene em cache apenas uma vez: arquiteturas decoder-decoder para modelos de linguagem / You Only Cache Once: Decoder-Decoder Architectures for Language Models

Apresentação do artigo

A arquitetura decoder-decoder de LLM, que armazena em cache os pares chave-valor apenas uma vez, empilha um cross-decoder sobre um self-decoder que codifica com eficiência caches globais de chave-valor, e o cross-encoder reutiliza o cache por meio de cross-attention; isso reduz significativamente o uso de memória GPU sem perda de capacidade e pode alcançar desempenho comparável ao Transformer em várias configurações de escalonamento do tamanho do modelo e da quantidade de tokens de treinamento.

A decoder-decoder LLM architecture that only caches key-value pairs once; it involves a cross-decoder stacked upon a self-decoder which efficiently encodes global key-value caches and the cross-encoder reuses the cache via cross-attention; this leads to a significant reduction in GPU memory use without sacrificing capabilities; achieves comparable performance to Transformer in various settings of scaling up model size and number of training token.

Resumo do artigo (Abstract)

Apresentamos o YOCO, uma arquitetura decoder-decoder para grandes modelos de linguagem que armazena em cache os pares chave-valor apenas uma vez. Essa arquitetura é composta por dois componentes: um cross-decoder empilhado sobre um self-decoder. O self-decoder codifica de forma eficiente caches globais de chave-valor (KV) que são reutilizados pelo cross-decoder via cross-attention. O modelo como um todo se comporta como um Transformer somente decodificador, embora o YOCO faça cache apenas uma vez. Esse design reduz substancialmente a demanda de memória da GPU, ao mesmo tempo em que mantém a capacidade de atenção global. Além disso, o fluxo de computação permite early exit no prefilling sem alterar a saída final, acelerando significativamente a etapa de prefill. Os resultados experimentais mostram que o YOCO alcança desempenho favorável em comparação com o Transformer em várias configurações de aumento de escala do tamanho do modelo e do número de tokens de treinamento. Também estendemos o YOCO para comprimento de contexto de 1M com precisão de recuperação de needle quase perfeita. Os resultados de profiling mostram que o YOCO melhora memória de inferência, latência de prefill e throughput em ordens de magnitude em diferentes comprimentos de contexto e tamanhos de modelo. O código está disponível em https://aka.ms/YOCO.

We introduce a decoder-decoder architecture, YOCO, for large language models, which only caches key-value pairs once. It consists of two components, i.e., a cross-decoder stacked upon a self-decoder. The self-decoder efficiently encodes global key-value (KV) caches that are reused by the cross-decoder via cross-attention. The overall model behaves like a decoder-only Transformer, although YOCO only caches once. The design substantially reduces GPU memory demands, yet retains global attention capability. Additionally, the computation flow enables prefilling to early exit without changing the final output, thereby significantly speeding up the prefill stage. Experimental results demonstrate that YOCO achieves favorable performance compared to Transformer in various settings of scaling up model size and number of training tokens. We also extend YOCO to 1M context length with near-perfect needle retrieval accuracy. The profiling results show that YOCO improves inference memory, prefill latency, and throughput by orders of magnitude across context lengths and model sizes. Code is available at https://aka.ms/YOCO.

Link do artigo

https://arxiv.org/abs/2405.05254

CAT3D: criar qualquer coisa em 3D com modelos de difusão multiview / CAT3D: Create Anything in 3D with Multi-View Diffusion Models

Apresentação do artigo

É apresentado um método para criar qualquer coisa em 3D simulando o processo real de captura com modelos de difusão multiview. Ele pode gerar novas views consistentes de uma cena para uso como entrada em técnicas de reconstrução 3D, produzindo representações 3D renderizadas em tempo real. Segundo o relato, cenas com o CAT3D podem ser geradas em menos de 1 minuto, e o método supera abordagens existentes em tarefas de criação de cenas 3D a partir de uma única imagem e de poucas views.

Presents a method for creating anything in 3D by simulating the real-world capture process using a multi-view diffusion model; it can generate consistent novel views of a scene which can be used as input to 3D reconstruction techniques to produce 3D representation rendered in real-time; the scene from CAT3D can be generated in less than one minute and is reported to outperform existing methods on single image and few-view 3D scene creation tasks.

Resumo do artigo (Abstract)

Os avanços em reconstrução 3D tornaram possível a captura 3D de alta qualidade, mas criar uma cena 3D ainda exige que o usuário colete centenas ou milhares de imagens. A Unity apresenta o CAT3D, um método para criar qualquer coisa em 3D simulando esse processo de captura do mundo real com um modelo de difusão multiview. Dado qualquer número de imagens de entrada e um conjunto de novos pontos de vista desejados, o modelo gera views novas altamente consistentes da cena. Essas views geradas podem ser usadas como entrada para técnicas robustas de reconstrução 3D, produzindo representações 3D que podem ser renderizadas em tempo real a partir de qualquer ponto de vista. O CAT3D pode criar cenas 3D inteiras em apenas 1 minuto e apresenta desempenho superior aos métodos existentes na criação de cenas 3D a partir de uma única imagem e de poucas views. Para resultados e demos interativas, consulte a página do projeto em https://cat3d.github.io.

Advances in 3D reconstruction have enabled high-quality 3D capture, but require a user to collect hundreds to thousands of images to create a 3D scene. We present CAT3D, a method for creating anything in 3D by simulating this real-world capture process with a multi-view diffusion model. Given any number of input images and a set of target novel viewpoints, our model generates highly consistent novel views of a scene. These generated views can be used as input to robust 3D reconstruction techniques to produce 3D representations that can be rendered from any viewpoint in real-time. CAT3D can create entire 3D scenes in as little as one minute, and outperforms existing methods for single image and few-view 3D scene creation. See our project page for results and interactive demos at https://cat3d.github.io .

Link do artigo

https://arxiv.org/abs/2405.10314

Texto original

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-ed5

Este texto foi organizado com um modelo GPT, então pode haver partes incorretas; por isso, consulte também o texto original no link ao final. Se você encontrar algum trecho estranho ou incorreto durante a leitura, por favor, avise nos comentários. 🤗

⚠️Publicidade⚠️: Este texto organizado pelo 🔥PyTorch Korea User Group🇰🇷 foi útil para você? Se cadastrar como membro, enviaremos os principais posts por e-mail💌! (O padrão é Weekly, mas também é possível mudar para Daily.)

[2024/05/13 ~ 05/19] Os principais artigos de ML desta semana (Top ML Papers of the Week)

GPT-4o

Introdução

Links relacionados

Leia mais

Gemini 1.5 Flash / Gemini 1.5 Flash

Apresentação do artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

Veo

Introdução

Links relacionados

Leia mais

Chameleon: modelos fundacionais de fusão antecipada multimodal mista / Chameleon: Mixed-Modal Early-Fusion Foundation Models

Introdução ao artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

Ajustar finamente LLMs com novo conhecimento incentiva alucinações? / Does Fine-Tuning LLMs on New Knowledge Encourage Hallucinations?

Apresentação do artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

Transferência zero-shot de tokenizador / Zero-Shot Tokenizer Transfer

Introdução ao artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

WavCraft: edição e geração de áudio com grandes modelos de linguagem / WavCraft: Audio Editing and Generation with Large Language Models

Introdução ao artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

Fluxo de trabalho de RLHF: da modelagem de recompensa ao RLHF online / RLHF Workflow: From Reward Modeling to Online RLHF

Introdução do artigo

Resumo(Abstract)

Link do artigo

Leia mais

Armazene em cache apenas uma vez: arquiteturas decoder-decoder para modelos de linguagem / You Only Cache Once: Decoder-Decoder Architectures for Language Models

Apresentação do artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

CAT3D: criar qualquer coisa em 3D com modelos de difusão multiview / CAT3D: Create Anything in 3D with Multi-View Diffusion Models

Apresentação do artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

Texto original

Leituras relacionadas

Ainda não há comentários.