Lumiere: modelo de difusão espaço-temporal para gerar vídeos realistas

(lumiere-video.github.io)

1 pontos por GN⁺ 2024-01-26 | 1 comentários | Compartilhar no WhatsApp

Para melhorar a consistência de movimento, que é um desafio na geração de vídeo, o Lumiere, do Google Research, é um modelo de difusão de texto para vídeo voltado à síntese de vídeos realistas e diversos
O ponto central é o Space-Time U-Net: em vez de criar primeiro keyframes distantes e depois interpolar, ele gera todo o intervalo temporal em uma única passada do modelo
Ele usa downsampling e upsampling nas direções espacial e temporal, e aproveita um modelo de difusão de texto para imagem pré-treinado para criar diretamente vídeos de baixa resolução em full frame rate
As demos abrangem amplamente tarefas de geração e edição, incluindo texto para vídeo, imagem para vídeo, geração estilizada, estilização de vídeo, cinemagraph e até inpainting de vídeo
Mesmo iniciantes podem criar conteúdo visual com flexibilidade, mas, por causa do potencial de uso indevido em conteúdo falso ou nocivo, também são necessárias medidas de detecção de viés e uso malicioso

Objetivos do Lumiere e materiais publicados

O Lumiere é um modelo de difusão de texto para vídeo focado em aumentar o realismo, a diversidade e a consistência temporal do movimento na síntese de vídeo
Na página do projeto, é possível ver o artigo e vários vídeos de demonstração
Ele mostra não só tarefas de geração, mas também aplicações de edição de vídeo

Arquitetura que gera todo o intervalo temporal de uma vez

O Lumiere adota a arquitetura Space-Time U-Net para gerar toda a duração temporal do vídeo em uma única passada do modelo
Modelos de vídeo anteriores normalmente sintetizam primeiro keyframes distantes e depois aplicam super-resolução temporal, o que dificulta manter a consistência temporal global
Este modelo aplica downsampling e upsampling não só no espaço, mas também na direção temporal
Aproveitando um modelo de difusão de texto para imagem pré-treinado, ele gera diretamente vídeos de baixa resolução em full frame rate em várias escalas espaço-temporais

Geração de vídeo a partir de texto e imagem

A demo de Text-to-Video gera vídeos apenas com prompts de texto
- Os exemplos incluem um trilheiro no topo de uma montanha, um astronauta ao redor de uma base em Marte, uma cena de um cachorro de óculos escuros dirigindo, calda de chocolate sendo derramada sobre sorvete de baunilha, fogos de artifício e um timelapse do pôr do sol na praia
A demo de Image-to-Video cria vídeos com base em uma imagem de entrada e um prompt
- Os exemplos incluem um gato triste com camisa listrada, um ursinho de pelúcia dançando na neve, uma tartaruga nadando no mar, um macaco usando um notebook enquanto toma café e um gato tocando piano

Geração estilizada e edição de vídeo

Stylized Generation usa uma única imagem de referência para gerar vídeos no estilo desejado
Nesse processo, são usados pesos ajustados finamente de um modelo de texto para imagem
Os exemplos de referência de estilo incluem Sticker, 3D Melting Gold, Flat cartoon, 3D Rendering, Line drawing, Glowing e Watercolor painting
Em Video Stylization, é possível realizar edição de vídeo consistente com métodos de edição de imagem baseados em texto
- Os prompts de estilo de exemplo incluem “Made of wooden blocks”, “Origami folded paper art”, “Made of colorful toy bricks”, “Made of flowers” e outros

Animação por região e inpainting

O recurso Cinemagraphs permite animar apenas áreas específicas do conteúdo de uma imagem definidas pelo usuário
A demo de Video Inpainting recebe como entrada um vídeo original com máscara aplicada e gera o vídeo de saída
Os exemplos de inpainting incluem prompts para trocar roupas ou acessórios
- “wearing a gold strapless gown”
- “wearing sunglasses”
- “wearing a red scarf”
- “wearing rain boots”

Impacto social e segurança

Um dos principais objetivos do Lumiere é permitir que usuários iniciantes gerem conteúdo visual de forma criativa e flexível
A mesma tecnologia também pode ser usada indevidamente para criar conteúdo falso ou nocivo
Para um uso seguro e justo, é preciso desenvolver e aplicar ferramentas para detectar viés e casos de uso malicioso

1 comentários

GN⁺ 2024-01-26

Comentários do Hacker News

É muito incômodo ver este trabalho ser apresentado revestido de pesquisa científica
Isto parece nada além de autopromoção, publicidade e marketing, e não há uma descrição de um procedimento reprodutível
O diagrama da arquitetura pode até inspirar outras pessoas, mas não oferece o que há de mais importante na ciência: a falseabilidade
Como não há como verificar se o Google está mentindo, devemos presumir que todos os exemplos foram selecionados a dedo e pós-processados
Também devemos assumir que os dados de treinamento do modelo foram obtidos ilegalmente e partir de um ceticismo extremo, porque o Google agora faz repetidamente afirmações impossíveis de comprovar
Ao comparar o desempenho do Gemini do Bard com o GPT-4, ele fica muito atrás, e o vídeo que alegava mostrar interação com o modelo na verdade não era isso
Nenhuma organização deveria operar assim, mas o Google se tornou um infrator reincidente especialmente grave
- Essa atitude não parece produtiva para a ciência
  Se você não acredita nos resultados, basta ignorar os resultados alegados e aproveitar apenas a ideia central
  Não é preciso presumir má-fé para invalidar a tal publicidade deles
  Esse tipo de postura pode até fazer você se sentir um pouco melhor, mas politiza as afirmações e, se elas forem de fato verdadeiras, acaba nos deixando mais lentos
  Há um histórico de muitos artigos do Google que continham pouquíssimos resultados reprodutíveis e, mesmo assim, acabaram servindo de base para tecnologias úteis
- Para constar, usar dados para treinar um modelo, por si só, não é ilegal
  O que é ilegal é fazer o modelo emitir esses mesmos dados para obter lucro comercial
  Essa distinção é borrada de propósito, mas é importante entendê-la
- Fico curioso para saber como alguém teve acesso ao Gemini Ultra
  Ou será que estão falando do Gemini Pro, que é comparado ao GPT-3.5?
- Este vídeo quase certamente parece voltado a investidores do Google: “não morremos, e a busca também não morreu! É um urso dançando!”
  Ainda assim, se a tecnologia for exatamente como anunciada, é muito impressionante
- Como o Google já foi pego manipulando demos de IA, é razoável considerar alta a chance de que esteja mentindo ou escolhendo exemplos a dedo para parecer melhor
  No mundo real da pesquisa, se alguém é pego fazendo isso, não só seus trabalhos futuros como também os anteriores passam a ser alvo de forte verificação
Os exemplos são muito mais consistentes e se mantêm por mais tempo do que outras técnicas que vi antes
Em comparação com outros modelos, as pernas escorregam menos no chão
Por outro lado, rostos humanos não ficaram bons; por exemplo, a cena do sorriso da Mona Lisa
Pessoalmente, parece o primeiro modelo de geração de vídeo decente
Edit: acabei de ver que é um trabalho do Google. Então nunca será lançado publicamente
- Se for lançado, acho que em uma semana aparecerá no Civitai um modelo NSFW baseado nele
- Não, os pesquisadores vão, como sempre, construir em cima desta pesquisa, e no fim alguma empresa criará um produto bem-sucedido com base em muitos resultados de pesquisa, incluindo este
  Nesse momento estaremos reclamando que o Google ficou para trás
  É bem legal que o Google patrocine muitas pesquisas de ponta e as compartilhe publicamente
  Não sei por quanto tempo isso vai durar
- Fico me perguntando quantas das amostras deste vídeo de demonstração são reais
  https://arstechnica.com/information-technology/2023/12/googl...
- Você disse “sorriso da Mona Lisa”, mas aquilo não é a "Mona Lisa"[1] de Leonardo da Vinci, e sim "Girl with a Pearl Earring"[2], de Johannes Vermeer
  [1] https://en.wikipedia.org/wiki/Mona_Lisa
  [2] https://en.wikipedia.org/wiki/Girl_with_a_Pearl_Earring
No GitHub deles, atualmente não há nada além da página vinculada
https://github.com/lumiere-video
Não é que tenham afirmado que haveria algo lá para começar, mas mesmo assim fui conferir, e também não vi nenhum link para o perfil do GitHub
Deixo o link para quem não quiser digitar manualmente o endereço do perfil a partir da URL do site hospedado
- É uma prática comum em IA/machine learning: colocar no GitHub informações sobre algo que não foi publicado e dizer que “está no GitHub”
- Infelizmente, os grandes modelos de linguagem criaram uma nova moda
O inpainting de vídeo é interessante
Meus filhos estavam vendo episódios antigos de SpongeBob recentemente, e a proporção 4:3 incomodava bastante
Pensei que inpaintar as bordas dos dois lados para voltar a 16:9 poderia ser um caso de uso interessante, mas para lidar com objetos que entram no quadro pelas laterais provavelmente seria necessário algum tipo de ajuste fino baseado em pré-visualização
- Isso realmente soa como um produto que alguém da indústria de TV e cinema compraria
  Seria esticar vídeos de proporção fixa ou ajustá-los dinamicamente para tamanhos não originais sem distorções visíveis
  Bastaria estimar as bordas adicionadas com precisão suficiente para que o público não percebesse
  4:3 <-> 16:9 <-> 143:100 (IMAX) <-> 11:8 (Academy) <-> 3:2 (35mm) <-> 16:10 (tablet/desktop)
  Também seria possível fazer um filme novo parecer um filme clássico mudo em preto e branco e então dar a ele o enquadramento adequado
  Qualquer filme poderia ser adaptado para funcionar naturalmente em uma tela IMAX
- Não daria para simplesmente processar o vídeo ao contrário?
Vendo a natureza estranha, assustadora e onírica dessas pequenas amostras de geração de vídeo por IA, sempre acho uma pena que os artigos nunca incluam, como easter egg, o prompt "dreaming of electric sheep"
Droga, este anúncio teria sido chocante há 2 ou 3 anos
Todo mundo se acostumou com novos lançamentos desse tipo saindo em ritmo muito acelerado, mas ainda assim é incrível
Quero muito poder usar logo um software com essas capacidades
Edit: não, é do Google. Vou esperar até sair algo open source
Parece misturar imagens antigas com datasets modernos com frequência
Se você der um retrato de George Washington e usar “homem sorrindo” como prompt, será que apareceriam [dentaduras][1] ou dentes branquinhos?
[1] https://en.wikipedia.org/wiki/George_Washington%27s_teeth
- Esses dados fora da distribuição obviamente teriam que ser fornecidos no prompt
  Não está claro se esses modelos criaram um enorme modelo de mundo sobre fatos, como modelos de linguagem de grande escala maiores, e eles parecem estar focados principalmente em entender como as coisas se movem
  No dataset, a maioria das pessoas mostra dentes branquinhos, e não há vídeo da boca de Washington, então acho que esse seria o padrão, a menos que você descreva em detalhes a dentadura desejada
Algumas reflexões: como é do Google, provavelmente nunca vamos poder usar diretamente
Ainda assim, a ideia é muito interessante. O modelo é treinado para primeiro gerar uma pequena representação temporal do vídeo inteiro e depois fazer upscaling tanto no tempo quanto nos pixels
Em essência, se vimos modelos anteriores adicionarem mapas de profundidade, aqui é como adicionar um mapa temporal em outra dimensão
A consistência parece bastante boa a olho nu
As estranhezas parecem estar mais na parte em que o modelo decide “o que” um objeto deve fazer ao longo do tempo do que nas falhas comuns de manter consistência quadro a quadro
O grande insight dos pesquisadores do Google é que dá para condicionar, aprender e gerar a própria consistência e depois preencher os quadros
Acho que vários fornecedores de modelos, como a Stability, conseguiriam reproduzir isso suficientemente bem, e não vejo nada que pareça impossível de implementar
É um post com tema de pixels sobre um artigo com tema de pixels
É bem impressionante e deve levar em breve a uma enxurrada de programas de “fazer um filme com um parágrafo”
Como é uma obra do Google, provavelmente vai acabar dentro de uma caixa e virar uma ferramenta de Rick and Morty que nunca veremos
Gosto do formato de atribuição dos autores
Notações como 1,2,3,4,*,+ são boas para distinguir autor principal, afiliação institucional e contribuidor essencial
Quando se lê muitos artigos de astronomia e física, muitas vezes há mais de 10 autores e não dá para saber quem fez o quê
Por exemplo, não vejo um formato parecido no link do arXiv
E isso provavelmente será usado imediatamente para pornografia abusiva
5ª variação do exemplo Walking Woman: “Wearing no clothing”
- Eu não tinha pensado nisso, mas é verdade. Com uma tecnologia dessas, pornografia abusiva logo se tornará onipresente
  Todas as pessoas do mundo poderão em breve ter pornografia explícita realista com o próprio rosto colado nela
Este ano veremos o primeiro longa-metragem gerado por IA
Se isso parece absurdo, basta lembrar que, no início do cinema, a duração média dos planos era de 12 segundos, e hoje é de apenas 2,5 segundos
Algumas técnicas importantes, como manter a consistência dos sujeitos entre gerações, ainda precisam ser refinadas
Mas acho que muitas inconsistências podem ser cobertas por métodos já existentes, como separar camadas por profundidade e usar imagens mais estáticas, ou criar modelos 3D simples com textura onde for necessária mais profundidade
Com esforço e habilidade suficientes, parece possível até com a tecnologia atual
- É fácil imaginar cineastas criando várias versões preliminares de um filme para refinar roteiro e filmagem, assim como hoje usam storyboards
- Por que criar um “filme”? Não seria melhor criar uma única trama em que o espectador pudesse trocar os figurinos à vontade?
- Como todas as outras mídias que as pessoas despejam por aí com esse tipo de coisa, provavelmente será completamente horrível

Lumiere: modelo de difusão espaço-temporal para gerar vídeos realistas

Objetivos do Lumiere e materiais publicados

Arquitetura que gera todo o intervalo temporal de uma vez

Geração de vídeo a partir de texto e imagem

Geração estilizada e edição de vídeo

Animação por região e inpainting

Impacto social e segurança

Leituras relacionadas

1 comentários

Comentários do Hacker News