28] Principais artigos de ML desta semana (Top ML Papers of the Week)

(discuss.pytorch.kr)

3 pontos por ninebow 2024-01-29 | Ainda não há comentários. | Compartilhar no WhatsApp

Visão geral

Traduzimos automaticamente os textos sobre artigos de ML publicados semanalmente pelo DAIR.AI.
Ao observar os artigos selecionados nesta semana, fica claro um interesse destacado em áreas como grandes modelos de linguagem (Large Language Models, LLMs), modelos multimodais (Multimodal Models) e modelos de linguagem visual (Visual Language Models). Artigos como "Knowledge Fusion of LLMs", "Resource-efficient LLMs & Multimodal Models" e "Red Teaming Visual Language Models" refletem essas principais tendências, apresentando pesquisas e desenvolvimentos sobre modelos de grande porte e sua eficiência, aprendizado multimodal e melhorias na capacidade de processamento de dados visuais.
Essa tendência vem surgindo à medida que, nos últimos anos, aumentou a importância da capacidade de compreender e processar dados complexos nas tecnologias de inteligência artificial, especialmente nas áreas de processamento de linguagem natural (Natural Language Processing, NLP) e visão computacional (Computer Vision). Os grandes modelos de linguagem vêm registrando alto desempenho em diversas tarefas de compreensão de linguagem, enquanto os modelos multimodais se consolidaram como um elemento essencial nas pesquisas que buscam uma compreensão semelhante à humana ao combinar diferentes tipos de dados (texto, imagem, áudio etc.). Além disso, os modelos de linguagem visual desempenham um papel importante na construção de sistemas de IA mais ricos e interativos, ao possibilitar uma abordagem linguística para imagens e conteúdos visuais.
A tendência identificada por meio dos títulos e das introduções sugere que há cada vez mais pesquisas voltadas não apenas para melhorar o desempenho de modelos de IA avançados, mas também para estabelecer novos padrões de produtividade e eficiência. Os artigos que tratam da melhoria da eficiência de recursos em modelos de grande porte refletem o atual direcionamento da pesquisa rumo a um desenvolvimento sustentável da IA em termos de consumo de energia e custo computacional. Isso também destaca os esforços da academia e da indústria para enfrentar problemas que precisam ser resolvidos para que a inteligência artificial seja adotada de forma ainda mais ampla em aplicações reais na indústria e na sociedade.

Depth Anything: liberando o poder de dados em larga escala sem rótulos / Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data

Introdução do artigo

Uma solução robusta de estimativa de profundidade monocular capaz de lidar com qualquer imagem em qualquer situação; anota automaticamente grandes volumes de dados sem rótulos (até 62 milhões), ajudando a reduzir o erro de generalização; propõe estratégias eficazes para aproveitar o poder de dados sem rótulos em larga escala; além da capacidade de generalização, estabeleceu um novo estado da arte por meio de fine-tuning e até resultou em uma ControlNet condicionada por profundidade aprimorada.

A robust monocular depth estimation solution that can deal with any images under any circumstance; automatically annotates large-scale unlabeled data (~62m) which helps to reduce generalization error; proposes effective strategies to leverage the power of the large-scale unlabeled data; besides generalization ability, it established new state-of-the-art through fine-tuning and even results in an enhanced depth-conditioned controlnet.

Resumo do artigo (Abstract)

Este estudo apresenta o Depth Anything, uma solução altamente prática para estimativa robusta de profundidade monocular. Sem buscar novos módulos técnicos, o objetivo é construir um modelo fundacional simples, porém poderoso, capaz de lidar com qualquer imagem em quaisquer circunstâncias. Para isso, os autores ampliam o conjunto de dados ao projetar um mecanismo de dados para coletar e anotar automaticamente dados sem rótulos em larga escala (~62 milhões), o que amplia significativamente a cobertura dos dados e, assim, reduz o erro de generalização. O trabalho investiga duas estratégias simples, porém eficazes, que tornam promissora a ampliação da escala dos dados. Primeiro, cria-se um alvo de otimização mais desafiador com o uso de ferramentas de aumento de dados. Isso leva o modelo a buscar ativamente conhecimento visual adicional e adquirir representações robustas. Segundo, desenvolve-se uma supervisão auxiliar para forçar o modelo a herdar ricos priors semânticos de encoders pré-treinados. As capacidades zero-shot são avaliadas extensivamente, incluindo seis conjuntos de dados públicos e fotos capturadas aleatoriamente. Os resultados demonstram uma capacidade de generalização impressionante. Além disso, por meio de fine-tuning com informações de profundidade métrica de NYUv2 e KITTI, são estabelecidos novos SOTAs. Um modelo de profundidade melhor também resulta em uma ControlNet condicionada por profundidade melhor. Mais detalhes estão disponíveis em https://github.com/LiheYoung/Depth-Anything.

This work presents Depth Anything, a highly practical solution for robust monocular depth estimation. Without pursuing novel technical modules, we aim to build a simple yet powerful foundation model dealing with any images under any circumstances. To this end, we scale up the dataset by designing a data engine to collect and automatically annotate large-scale unlabeled data (~62M), which significantly enlarges the data coverage and thus is able to reduce the generalization error. We investigate two simple yet effective strategies that make data scaling-up promising. First, a more challenging optimization target is created by leveraging data augmentation tools. It compels the model to actively seek extra visual knowledge and acquire robust representations. Second, an auxiliary supervision is developed to enforce the model to inherit rich semantic priors from pre-trained encoders. We evaluate its zero-shot capabilities extensively, including six public datasets and randomly captured photos. It demonstrates impressive generalization ability. Further, through fine-tuning it with metric depth information from NYUv2 and KITTI, new SOTAs are set. Our better depth model also results in a better depth-conditioned ControlNet. Our models are released at https://github.com/LiheYoung/Depth-Anything.

Link do artigo

https://arxiv.org/abs/2401.10891v1

Fusão de conhecimento de grandes modelos de linguagem / Knowledge Fusion of Large Language Models

Introdução do artigo

Propõe o FuseLLM, cuja ideia central é externalizar o conhecimento de vários modelos de aprendizado e transferir suas capacidades para um modelo de aprendizado alvo; aproveita as distribuições generativas dos modelos de origem para externalizar tanto o conhecimento coletivo quanto os pontos fortes individuais e transferi-los para o modelo alvo por meio de treinamento contínuo; constata que o FuseLLM pode melhorar o desempenho do modelo alvo em uma variedade de capacidades, como raciocínio, senso comum e geração de código.

Proposes fusellm with the core idea of externalizing knowledge from multiple llms and transferring their capabilities to a target llm; leverages the generative distributions of source llms to externalize both their collective knowledge and individual strengths and transfer them to the target llm through continual training; finds that the fusellm can improve the performance of the target model across a range of capabilities such as reasoning, common sense, and code generation.

Resumo do artigo (Abstract)

Treinar grandes modelos de linguagem (LLMs) do zero pode gerar modelos com funcionalidades e pontos fortes distintos, mas isso traz custos significativos e pode resultar em capacidades redundantes. Como alternativa, fundir LLMs pré-treinados já existentes em um modelo mais potente também é uma abordagem atraente e com boa relação custo-benefício. No entanto, devido às diferentes arquiteturas desses LLMs, misturar diretamente seus pesos é impraticável. Neste artigo, introduzimos o conceito de fusão de conhecimento para LLMs, com o objetivo de combinar as capacidades de LLMs existentes e transferi-las para um único LLM. Ao aproveitar as distribuições generativas dos LLMs de origem, externalizamos seu conhecimento coletivo e seus pontos fortes únicos, elevando potencialmente as capacidades do modelo alvo para além das de qualquer LLM de origem individual. A Unity valida a abordagem usando três LLMs populares com arquiteturas diferentes — Llama-2, MPT e OpenLLaMA — em vários benchmarks e tarefas. Nossos resultados confirmam que a fusão de LLMs pode melhorar o desempenho do modelo alvo em uma gama de capacidades, como raciocínio, senso comum e geração de código. O código, os pesos do modelo e os dados estão públicos em \url{https://github.com/fanqiwan/FuseLLM}.

While training large language models (LLMs) from scratch can generate models with distinct functionalities and strengths, it comes at significant costs and may result in redundant capabilities. Alternatively, a cost-effective and compelling approach is to merge existing pre-trained LLMs into a more potent model. However, due to the varying architectures of these LLMs, directly blending their weights is impractical. In this paper, we introduce the notion of knowledge fusion for LLMs, aimed at combining the capabilities of existing LLMs and transferring them into a single LLM. By leveraging the generative distributions of source LLMs, we externalize their collective knowledge and unique strengths, thereby potentially elevating the capabilities of the target model beyond those of any individual source LLM. We validate our approach using three popular LLMs with different architectures--Llama-2, MPT, and OpenLLaMA--across various benchmarks and tasks. Our findings confirm that the fusion of LLMs can improve the performance of the target model across a range of capabilities such as reasoning, commonsense, and code generation. Our code, model weights, and data are public at \url{https://github.com/fanqiwan/FuseLLM}.

Link do artigo

https://arxiv.org/abs/2401.10491

MambaByte: modelo de espaço de estados seletivo sem tokens / MambaByte: Token-free Selective State Space Model

Introdução do artigo

Adapta o Mamba SSM para aprender diretamente a partir de bytes brutos; bytes levam a sequências mais longas, nas quais transformadores autorregressivos escalam mal; este trabalho relata grandes benefícios relacionados a inferência mais rápida e até supera transformadores baseados em subpalavras.

Adapts mamba ssm to learn directly from raw bytes; bytes lead to longer sequences which autoregressive transformers will scale poorly on; this work reports huge benefits related to faster inference and even outperforms subword transformers.

Resumo do artigo (Abstract)

Modelos de linguagem sem tokens aprendem diretamente a partir de bytes brutos e removem o viés da tokenização por subpalavras. No entanto, operar em bytes resulta em sequências significativamente mais longas, e os Transformers autorregressivos padrão escalam mal nesse tipo de configuração. Nós experimentamos o MambaByte, uma adaptação sem tokens do modelo de espaço de estados Mamba, treinado de forma autorregressiva em sequências de bytes. Nossos experimentos indicam a eficiência computacional do MambaByte em comparação com outros modelos em nível de byte. Também verificamos que o MambaByte é competitivo com os Transformers de subpalavras estado da arte e chega até a superá-los. Além disso, devido ao escalonamento linear com o comprimento, o MambaByte oferece a vantagem de inferência rápida em comparação com Transformers. Nossos resultados demonstram a viabilidade do MambaByte para viabilizar modelagem de linguagem sem tokens.

Token-free language models learn directly from raw bytes and remove the bias of subword tokenization. Operating on bytes, however, results in significantly longer sequences, and standard autoregressive Transformers scale poorly in such settings. We experiment with MambaByte, a token-free adaptation of the Mamba state space model, trained autoregressively on byte sequences. Our experiments indicate the computational efficiency of MambaByte compared to other byte-level models. We also find MambaByte to be competitive with and even outperform state-of-the-art subword Transformers. Furthermore, owing to linear scaling in length, MambaByte benefits from fast inference compared to Transformers. Our findings establish the viability of MambaByte in enabling token-free language modeling.

Link do artigo

https://arxiv.org/abs/2401.13660

Diffuse to Choose: enriquecendo o inpainting condicionado por imagem em modelos de difusão latente para experimentação virtual / Diffuse to Choose: Enriching Image Conditioned Inpainting in Latent Diffusion Models for Virtual Try-All

Apresentação do artigo

Um modelo de inpainting condicionado por imagem baseado em difusão, capaz de equilibrar inferência rápida e alta fidelidade, ao mesmo tempo em que permite manipulações semânticas precisas no conteúdo de uma cena dada; supera os métodos existentes de inpainting por difusão zero-shot e até algoritmos de personalização por difusão few-shot, como o DreamPaint.

A diffusion-based image-conditioned inpainting model to balance fast inference with high-fidelity while enabling accurate semantic manipulations in a given scene content; outperforms existing zero-shot diffusion inpainting methods and even few-shot diffusion personalization algorithms such as dreampaint.

Resumo do artigo (Abstract)

Com o crescimento das compras online, tornou-se crucial a capacidade de os compradores visualizarem virtualmente produtos em seus próprios ambientes — um fenômeno que definimos como “Virtual Try-All”. Modelos de difusão recentes contêm inerentemente um modelo de mundo, o que os torna adequados para essa tarefa em um contexto de inpainting. No entanto, modelos tradicionais de difusão condicionados por imagem frequentemente falham em capturar os detalhes finos dos produtos. Em contraste, modelos guiados por personalização, como o DreamPaint, são bons em preservar os detalhes do item, mas não são otimizados para aplicações em tempo real. Apresentamos o “Diffuse to Choose”, um novo modelo de inpainting condicionado por imagem baseado em difusão que equilibra de forma eficiente inferência rápida com a retenção de detalhes de alta fidelidade de um item de referência dado, ao mesmo tempo em que garante manipulações semânticas precisas no conteúdo da cena. Nossa abordagem baseia-se em incorporar características de granularidade fina da imagem de referência diretamente nos mapas de características latentes do modelo principal de difusão, juntamente com uma perda perceptual para preservar ainda mais os detalhes do item de referência. Realizamos testes extensivos tanto em conjuntos de dados internos quanto publicamente disponíveis, e mostramos que o Diffuse to Choose é superior aos métodos existentes de inpainting por difusão zero-shot, bem como a algoritmos de personalização por difusão few-shot, como o DreamPaint.

As online shopping is growing, the ability for buyers to virtually visualize products in their settings-a phenomenon we define as "Virtual Try-All"-has become crucial. Recent diffusion models inherently contain a world model, rendering them suitable for this task within an inpainting context. However, traditional image-conditioned diffusion models often fail to capture the fine-grained details of products. In contrast, personalization-driven models such as DreamPaint are good at preserving the item's details but they are not optimized for real-time applications. We present "Diffuse to Choose," a novel diffusion-based image-conditioned inpainting model that efficiently balances fast inference with the retention of high-fidelity details in a given reference item while ensuring accurate semantic manipulations in the given scene content. Our approach is based on incorporating fine-grained features from the reference image directly into the latent feature maps of the main diffusion model, alongside with a perceptual loss to further preserve the reference item's details. We conduct extensive testing on both in-house and publicly available datasets, and show that Diffuse to Choose is superior to existing zero-shot diffusion inpainting methods as well as few-shot diffusion personalization algorithms like DreamPaint.

Link do artigo

https://arxiv.org/abs/2401.13795

WARM: sobre os benefícios de modelos de recompensa com média de pesos / WARM: On the Benefits of Weight Averaged Reward Models

Apresentação do artigo

Introduz modelos de recompensa com média de pesos (WARM), que envolvem ajustar finamente vários modelos de recompensa e depois fazer a média no espaço dos pesos; a média de pesos melhora a eficiência em comparação com o ensemble tradicional de predições; melhora a qualidade e o alinhamento das predições de LLM.

Introduces weighted averaged rewards models (warm) that involve fine-tuning multiple rewards models and then averaging them in the weight space; average weighting improves efficiency compared to traditional prediction ensembling; it improves the quality and alignment of llm predictions.

Resumo do artigo (Abstract)

Alinhar grandes modelos de linguagem (LLMs) às preferências humanas por meio de aprendizado por reforço (RLHF) pode levar a reward hacking, em que os LLMs exploram falhas no modelo de recompensa (RM) para obter recompensas aparentemente altas sem cumprir os objetivos subjacentes. A Unity identifica dois desafios principais ao projetar RMs para mitigar o reward hacking: mudanças de distribuição durante o processo de RL e inconsistências nas preferências humanas. Como solução, propõe o Weight Averaged Reward Models (WARM), que primeiro ajusta finamente vários RMs e depois faz a média deles no espaço de pesos. Essa estratégia se baseia na observação de que pesos ajustados finamente permanecem linearmente conectados em modo quando compartilham o mesmo pré-treinamento. Ao fazer a média dos pesos, o WARM melhora a eficiência em comparação com o ensemble tradicional de previsões, ao mesmo tempo em que aumenta a confiabilidade sob mudanças de distribuição e a robustez diante de inconsistências de preferência. Resultados experimentais em tarefas de sumarização, usando métodos best-of-N e RL, mostram que o WARM melhora a qualidade geral e o alinhamento das previsões dos LLMs. Por exemplo, uma policy RL ajustada com WARM apresentou taxa de vitória de 79,4% contra uma policy RL ajustada com um único RM.

Aligning large language models (LLMs) with human preferences through reinforcement learning (RLHF) can lead to reward hacking, where LLMs exploit failures in the reward model (RM) to achieve seemingly high rewards without meeting the underlying objectives. We identify two primary challenges when designing RMs to mitigate reward hacking: distribution shifts during the RL process and inconsistencies in human preferences. As a solution, we propose Weight Averaged Reward Models (WARM), first fine-tuning multiple RMs, then averaging them in the weight space. This strategy follows the observation that fine-tuned weights remain linearly mode connected when sharing the same pre-training. By averaging weights, WARM improves efficiency compared to the traditional ensembling of predictions, while improving reliability under distribution shifts and robustness to preference inconsistencies. Our experiments on summarization tasks, using best-of-N and RL methods, shows that WARM improves the overall quality and alignment of LLM predictions; for example, a policy RL fine-tuned with WARM has a 79.4% win rate against a policy RL fine-tuned with a single RM.

Link do artigo

https://arxiv.org/abs/2401.12187

Pesquisa sobre LLMs e modelos fundamentais multimodais com eficiência de recursos / A Survey of Resource-efficient LLM and Multimodal Foundation Models

Introdução ao artigo

Uma pesquisa sobre ML com eficiência de recursos e modelos fundamentais multimodais, oferecendo uma análise abrangente e insights sobre pesquisas em eficiência de ML, incluindo arquiteturas, algoritmos e projetos e implementações de sistemas práticos.

A survey of resource-efficient llms and multimodal foundations models; provides a comprehensive analysis and insights into ml efficiency research, including architectures, algorithms, and practical system designs and implementations.

Resumo do artigo (Abstract)

Grandes modelos fundamentais, incluindo grandes modelos de linguagem (LLMs), vision transformers (ViTs), diffusion e modelos multimodais baseados em LLM, estão revolucionando todo o ciclo de vida de machine learning, do treinamento à implantação. No entanto, os avanços substanciais em versatilidade e desempenho que esses modelos oferecem têm um custo significativo em termos de recursos de hardware. Para sustentar o crescimento desses grandes modelos de forma escalável e ambientalmente sustentável, tem havido um foco considerável no desenvolvimento de estratégias eficientes em recursos. Esta pesquisa aprofunda a importância crítica desse tipo de estudo, examinando aspectos tanto algorítmicos quanto sistêmicos. Ela oferece uma análise abrangente e insights valiosos extraídos da literatura existente, cobrindo uma ampla gama de tópicos, desde arquiteturas de modelo de ponta e algoritmos de treinamento/serving até projetos e implementações de sistemas práticos. O objetivo desta pesquisa é fornecer uma compreensão geral de como as abordagens atuais estão enfrentando os desafios de recursos impostos pelos grandes modelos fundamentais e potencialmente inspirar futuros avanços nesta área.

Large foundation models, including large language models (LLMs), vision transformers (ViTs), diffusion, and LLM-based multimodal models, are revolutionizing the entire machine learning lifecycle, from training to deployment. However, the substantial advancements in versatility and performance these models offer come at a significant cost in terms of hardware resources. To support the growth of these large models in a scalable and environmentally sustainable way, there has been a considerable focus on developing resource-efficient strategies. This survey delves into the critical importance of such research, examining both algorithmic and systemic aspects. It offers a comprehensive analysis and valuable insights gleaned from existing literature, encompassing a broad array of topics from cutting-edge model architectures and training/serving algorithms to practical system designs and implementations. The goal of this survey is to provide an overarching understanding of how current approaches are tackling the resource challenges posed by large foundation models and to potentially inspire future breakthroughs in this field.

Link do artigo

https://arxiv.org/abs/2401.08092v1

Red Teaming de modelos visuais de linguagem / Red Teaming Visual Language Models

Introdução ao artigo

Primeiro, é apresentado um dataset de red teaming composto por 10 subtarefas (por exemplo, indução enganosa por imagem, jailbreaking multimodal, equidade facial etc.); foi constatado que 10 VLMs (Vision-Language Models) open source de destaque enfrentam dificuldades em diferentes níveis no red teaming e apresentam uma diferença de desempenho de até 31% em relação ao GPT-4V; além disso, usando o dataset de red teaming proposto, foi aplicado alinhamento de red teaming ao llava-v1.5 com SFT (Supervised Fine-tuning), melhorando o desempenho do modelo em 10% no conjunto de teste.

First presents a red teaming dataset of 10 subtasks (e.g., image misleading, multi-modal jailbreaking, face fairness, etc); finds that 10 prominent open-sourced vlms struggle with the red teaming in different degrees and have up to 31% performance gap with gpt-4v; also applies red teaming alignment to llava-v1.5 with sft using the proposed red teaming dataset, which improves model performance by 10% in the test set.

Resumo do artigo (Abstract)

Os VLMs (modelos de visão-linguagem) expandem as capacidades dos LLMs (grandes modelos de linguagem) para aceitar entradas multimodais. Como já foi verificado que LLMs podem ser induzidos a gerar conteúdo nocivo ou impreciso por meio de casos de teste específicos (chamados de red teaming), ainda permanece a questão de como os VLMs se comportam em cenários semelhantes, especialmente quando há combinação de entradas textuais e visuais. Para explorar esse problema, apresentamos o RTVLM, um novo dataset de red teaming que abrange 10 subtarefas (por exemplo, indução enganosa por imagem, jailbreaking multimodal, equidade facial etc.) sob 4 aspectos principais (fidelidade, privacidade, segurança e equidade). O RTVLM da Criteo é o primeiro dataset de red teaming a benchmarkar os VLMs atuais nesses 4 aspectos distintos. Uma análise detalhada mostra que 10 VLMs open source de destaque enfrentam dificuldades em diferentes níveis no red teaming e têm uma diferença de desempenho de até 31% em relação ao GPT-4V. Além disso, ao aplicar de forma simples o alinhamento de red teaming ao LLaVA-v1.5 com ajuste fino supervisionado (SFT) usando o RTVLM, o desempenho do modelo foi reforçado em 10% no conjunto de teste RTVLM, 13% no MM-Hal, e sem queda perceptível no MM-Bench, superando outros modelos baseados em LLaVA com dados de alinhamento regulares. Isso revela que os VLMs open source atuais ainda carecem de alinhamento de red teaming. O código e os datasets serão disponibilizados como open source.

VLMs (Vision-Language Models) extend the capabilities of LLMs (Large Language Models) to accept multimodal inputs. Since it has been verified that LLMs can be induced to generate harmful or inaccurate content through specific test cases (termed as Red Teaming), how VLMs perform in similar scenarios, especially with their combination of textual and visual inputs, remains a question. To explore this problem, we present a novel red teaming dataset RTVLM, which encompasses 10 subtasks (e.g., image misleading, multi-modal jail-breaking, face fairness, etc) under 4 primary aspects (faithfulness, privacy, safety, fairness). Our RTVLM is the first red-teaming dataset to benchmark current VLMs in terms of these 4 different aspects. Detailed analysis shows that 10 prominent open-sourced VLMs struggle with the red teaming in different degrees and have up to 31% performance gap with GPT-4V. Additionally, we simply apply red teaming alignment to LLaVA-v1.5 with Supervised Fine-tuning (SFT) using RTVLM, and this bolsters the models' performance with 10% in RTVLM test set, 13% in MM-Hal, and without noticeable decline in MM-Bench, overpassing other LLaVA-based models with regular alignment data. This reveals that current open-sourced VLMs still lack red teaming alignment. Our code and datasets will be open-source.

Link do artigo

https://arxiv.org/abs/2401.12915

Lumiere: Um modelo de difusão espaço-temporal para geração de vídeo / Lumiere: A Space-Time Diffusion Model for Video Generation

Apresentação do artigo

Um modelo de difusão espaço-temporal de texto para vídeo para sintetizar vídeos com movimento realista e coerente; introduz uma arquitetura U-Net espaço-temporal para gerar de uma só vez toda a duração temporal do vídeo em uma única passagem; alcança resultados de geração de texto para vídeo estado da arte e oferece suporte a uma ampla gama de tarefas de criação de conteúdo e aplicações de edição de vídeo, incluindo image-to-video, video inpainting e geração estilizada.

A text-to-video space-time diffusion model for synthesizing videos with realistic and coherent motion; introduces a space-time u-net architecture to generate the entire temporal duration of a video at once via a single pass; achieves state-of-the-art text-to-video generation results and supports a wide range of content creation tasks and video editing applications, including image-to-video, video inpainting, and stylized generation.

Resumo do artigo (Abstract)

Apresentamos o Lumiere, um modelo de difusão de texto para vídeo criado para sintetizar vídeos que retratam movimentos realistas, diversos e coerentes, um desafio central na síntese de vídeo. Para isso, o Google introduziu uma arquitetura Space-Time U-Net que gera toda a duração temporal do vídeo de uma só vez, em uma única passagem pelo modelo. Isso contrasta com os modelos de vídeo existentes, que sintetizam keyframes distantes e depois aplicam super-resolução temporal — uma abordagem que, por natureza, dificulta alcançar consistência temporal global. Ao empregar downsampling e upsampling tanto espaciais quanto (principalmente) temporais e aproveitar um modelo de difusão de texto para imagem pré-treinado, o modelo aprende a gerar diretamente um vídeo de baixa resolução em taxa de quadros completa, processando-o em múltiplas escalas espaço-temporais. O trabalho demonstra resultados de geração de texto para vídeo de ponta e mostra que o design facilita uma ampla gama de tarefas de criação de conteúdo e aplicações de edição de vídeo, incluindo image-to-video, video inpainting e geração estilizada.

We introduce Lumiere -- a text-to-video diffusion model designed for synthesizing videos that portray realistic, diverse and coherent motion -- a pivotal challenge in video synthesis. To this end, we introduce a Space-Time U-Net architecture that generates the entire temporal duration of the video at once, through a single pass in the model. This is in contrast to existing video models which synthesize distant keyframes followed by temporal super-resolution -- an approach that inherently makes global temporal consistency difficult to achieve. By deploying both spatial and (importantly) temporal down- and up-sampling and leveraging a pre-trained text-to-image diffusion model, our model learns to directly generate a full-frame-rate, low-resolution video by processing it in multiple space-time scales. We demonstrate state-of-the-art text-to-video generation results, and show that our design easily facilitates a wide range of content creation tasks and video editing applications, including image-to-video, video inpainting, and stylized generation.

Link do artigo

https://arxiv.org/abs/2401.12945

Medusa: framework simples de aceleração de inferência de LLM com múltiplas cabeças de decodificação / Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads

Apresentação do artigo

Um framework simples para acelerar a inferência de LLM usando múltiplas cabeças de decodificação que preveem em paralelo vários tokens subsequentes; a paralelização reduz substancialmente o número de etapas de decodificação; é possível alcançar mais de 2,2x de ganho de velocidade sem comprometer a qualidade da geração, enquanto o Medusa-2 aumenta ainda mais esse ganho para 2,3 a 3,6x.

A simple framework for llm inference acceleration using multiple decoding heads that predict multiple subsequent tokens in parallel; parallelization substantially reduces the number of decoding steps; it can achieve over 2.2x speedup without compromising generation quality, while medusa-2 further improves the speedup to 2.3-3.6x.

Resumo do artigo (Abstract)

O processo de inferência em grandes modelos de linguagem (LLMs) costuma ser limitado pela ausência de paralelismo no processo de decodificação autorregressiva, fazendo com que a maior parte das operações fique restrita à largura de banda de memória dos aceleradores. Embora métodos como speculative decoding tenham sido propostos para resolver esse problema, sua implementação é dificultada pelos desafios de obter e manter um modelo de rascunho separado. Neste artigo, os autores apresentam o Medusa, um método eficiente que aprimora a inferência de LLMs ao adicionar cabeças extras de decodificação para prever, em paralelo, múltiplos tokens subsequentes. Usando um mecanismo de atenção baseado em árvore, o Medusa constrói múltiplas continuações candidatas e as verifica simultaneamente em cada etapa de decodificação. Ao aproveitar o processamento paralelo, o Medusa introduz apenas uma sobrecarga mínima em termos de latência por etapa, ao mesmo tempo em que reduz substancialmente o número de etapas de decodificação necessárias. Para atender às necessidades de diferentes casos de uso, o Medusa apresenta dois níveis de procedimentos de fine-tuning: Medusa-1: o Medusa é ajustado diretamente sobre um backbone LLM congelado, permitindo aceleração de inferência sem perda. Medusa-2: o Medusa é ajustado em conjunto com o backbone LLM, possibilitando maior precisão de previsão das cabeças do Medusa e maior ganho de velocidade, mas exigindo uma receita especial de treinamento que preserve as capacidades do modelo base. Além disso, os autores propõem várias extensões que melhoram ou ampliam a utilidade do Medusa, incluindo uma autodestilação para lidar com situações em que não há dados de treinamento disponíveis e um esquema de aceitação típico para aumentar a taxa de aceitação mantendo a qualidade da geração. O Medusa é avaliado em modelos de vários tamanhos e procedimentos de treinamento. Os experimentos demonstram que o Medusa-1 pode alcançar mais de 2,2x de aceleração sem comprometer a qualidade da geração, enquanto o Medusa-2 amplia ainda mais esse ganho para 2,3–3,6x.

The inference process in Large Language Models (LLMs) is often limited due to the absence of parallelism in the auto-regressive decoding process, resulting in most operations being restricted by the memory bandwidth of accelerators. While methods such as speculative decoding have been suggested to address this issue, their implementation is impeded by the challenges associated with acquiring and maintaining a separate draft model. In this paper, we present Medusa, an efficient method that augments LLM inference by adding extra decoding heads to predict multiple subsequent tokens in parallel. Using a tree-based attention mechanism, Medusa constructs multiple candidate continuations and verifies them simultaneously in each decoding step. By leveraging parallel processing, Medusa introduces only minimal overhead in terms of single-step latency while substantially reducing the number of decoding steps required. We present two levels of fine-tuning procedures for Medusa to meet the needs of different use cases: Medusa-1: Medusa is directly fine-tuned on top of a frozen backbone LLM, enabling lossless inference acceleration. Medusa-2: Medusa is fine-tuned together with the backbone LLM, enabling better prediction accuracy of Medusa heads and higher speedup but needing a special training recipe that preserves the backbone model's capabilities. Moreover, we propose several extensions that improve or expand the utility of Medusa, including a self-distillation to handle situations where no training data is available and a typical acceptance scheme to boost the acceptance rate while maintaining generation quality. We evaluate Medusa on models of various sizes and training procedures. Our experiments demonstrate that Medusa-1 can achieve over 2.2x speedup without compromising generation quality, while Medusa-2 further improves the speedup to 2.3-3.6x.

Link do artigo

https://arxiv.org/abs/2401.10774v1

AgentBoard: conselho de avaliação analítica para agentes LLM multi-turn / AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents

Introdução ao artigo

Por meio de um benchmark abrangente com um framework de avaliação open source, é possível realizar uma avaliação analítica para medir as capacidades e limitações de agentes LM e compreender o comportamento desses agentes, o que ajuda a construir agentes LM mais fortes e robustos.

A comprehensive benchmark with an open-source evaluation framework to perform analytical evaluation of llm agents; helps to assess the capabilities and limitations of llm agents and demystifies agent behaviors which leads to building stronger and robust llm agents.

Resumo do artigo (Abstract)

Avaliar grandes modelos de linguagem (LLMs) como agentes de propósito geral é essencial para entender suas capacidades e facilitar sua integração em aplicações práticas. No entanto, o processo de avaliação apresenta desafios substanciais. Um obstáculo principal é o benchmarking do desempenho dos agentes em cenários diversos dentro de um framework unificado, especialmente para manter ambientes parcialmente observáveis e garantir interações em múltiplas rodadas. Além disso, os frameworks de avaliação atuais se concentram principalmente na taxa de sucesso final, revelando poucos insights durante o processo e deixando de fornecer uma compreensão profunda das capacidades do modelo. Para enfrentar esses desafios, a Unity introduziu o AgentBoard, um benchmark abrangente pioneiro e um framework open source de avaliação voltado para a avaliação analítica de agentes LLM. O AgentBoard oferece uma métrica granular de taxa de progresso que captura avanços incrementais, além de um toolkit abrangente de avaliação com visualização interativa que facilita a análise multifacetada dos agentes. Isso não apenas esclarece as capacidades e limitações dos agentes LLM, mas também coloca em primeiro plano a interpretabilidade de seu desempenho. Em última instância, o AgentBoard representa um passo importante para desmistificar o comportamento dos agentes e acelerar o desenvolvimento de agentes LLM mais robustos.

Evaluating large language models (LLMs) as general-purpose agents is essential for understanding their capabilities and facilitating their integration into practical applications. However, the evaluation process presents substantial challenges. A primary obstacle is the benchmarking of agent performance across diverse scenarios within a unified framework, especially in maintaining partially-observable environments and ensuring multi-round interactions. Moreover, current evaluation frameworks mostly focus on the final success rate, revealing few insights during the process and failing to provide a deep understanding of the model abilities. To address these challenges, we introduce AgentBoard, a pioneering comprehensive benchmark and accompanied open-source evaluation framework tailored to analytical evaluation of LLM agents. AgentBoard offers a fine-grained progress rate metric that captures incremental advancements as well as a comprehensive evaluation toolkit that features easy assessment of agents for multi-faceted analysis through interactive visualization. This not only sheds light on the capabilities and limitations of LLM agents but also propels the interpretability of their performance to the forefront. Ultimately, AgentBoard serves as a significant step towards demystifying agent behaviors and accelerating the development of stronger LLM agents.

Link do artigo

https://arxiv.org/abs/2401.13178v1

Texto original

https://nlp.elvissaravia.com/p/top-ml-papers-of-the-week-5c8

⚠️Publicidade⚠️: Este texto organizado pelo grupo de usuários PyTorch da Coreia foi útil para você? Se cadastrar como membro, enviaremos os principais textos por e-mail! (O padrão é Weekly, mas também é possível mudar para Daily.)

[2024/01/22 ~ 01/28] Principais artigos de ML desta semana (Top ML Papers of the Week)

Visão geral

Depth Anything: liberando o poder de dados em larga escala sem rótulos / Depth Anything: Unleashing the Power of Large-Scale Unlabeled Data

Introdução do artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

Fusão de conhecimento de grandes modelos de linguagem / Knowledge Fusion of Large Language Models

Introdução do artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

MambaByte: modelo de espaço de estados seletivo sem tokens / MambaByte: Token-free Selective State Space Model

Introdução do artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

Diffuse to Choose: enriquecendo o inpainting condicionado por imagem em modelos de difusão latente para experimentação virtual / Diffuse to Choose: Enriching Image Conditioned Inpainting in Latent Diffusion Models for Virtual Try-All

Apresentação do artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

WARM: sobre os benefícios de modelos de recompensa com média de pesos / WARM: On the Benefits of Weight Averaged Reward Models

Apresentação do artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

Pesquisa sobre LLMs e modelos fundamentais multimodais com eficiência de recursos / A Survey of Resource-efficient LLM and Multimodal Foundation Models

Introdução ao artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

Red Teaming de modelos visuais de linguagem / Red Teaming Visual Language Models

Introdução ao artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

Lumiere: Um modelo de difusão espaço-temporal para geração de vídeo / Lumiere: A Space-Time Diffusion Model for Video Generation

Apresentação do artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

Medusa: framework simples de aceleração de inferência de LLM com múltiplas cabeças de decodificação / Medusa: Simple LLM Inference Acceleration Framework with Multiple Decoding Heads

Apresentação do artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

AgentBoard: conselho de avaliação analítica para agentes LLM multi-turn / AgentBoard: An Analytical Evaluation Board of Multi-turn LLM Agents

Introdução ao artigo

Resumo do artigo (Abstract)

Link do artigo

Leia mais

Texto original

Leituras relacionadas

Ainda não há comentários.