1 pontos por GN⁺ 2024-01-26 | 1 comentários | Compartilhar no WhatsApp

Texto para vídeo

  • A equipe de pesquisa do Google apresentou o Lumiere, um modelo de difusão de texto para vídeo.
  • Este modelo se concentra em sintetizar vídeos que expressem movimentos realistas, diversos e consistentes.
  • Usa uma arquitetura U-Net espaço-temporal para gerar de uma só vez toda a duração do vídeo.

Imagem para vídeo

  • Com o Lumiere, é possível gerar vídeos no estilo desejado usando uma única imagem de referência.
  • Aproveita pesos de um modelo de texto para imagem ajustado finamente.

Estilização de vídeo

  • Com o Lumiere, métodos existentes de edição de imagem baseada em texto podem ser usados para edição consistente de vídeo.

Cinemagraphs

  • O modelo Lumiere pode animar o conteúdo de uma imagem dentro de áreas específicas fornecidas pelo usuário.

Inpainting de vídeo

  • O modelo Lumiere pode restaurar o conteúdo de vídeos mascarados para gerar um vídeo completo.

Autores e agradecimentos

  • A equipe de pesquisa é composta por coautores do Google Research e de várias universidades.
  • Agradecem aos autores que contribuíram para a pesquisa durante estágios, bem como a várias pessoas que ofereceram colaboração e apoio.

Opinião do GN⁺:

  • O modelo Lumiere representa um avanço importante na área de síntese de vídeo. A possibilidade de gerar vídeos com movimentos realistas e diversos deve ser de grande ajuda para criadores de conteúdo e editores de vídeo.
  • Essa tecnologia pode contribuir especialmente para fortalecer a narrativa visual em setores como cinema e publicidade, além de ampliar a expressão criativa.
  • O desenvolvimento do Lumiere mostra como ferramentas criativas baseadas em inteligência artificial estão transformando o trabalho criativo.

1 comentários

 
GN⁺ 2024-01-26
Comentários do Hacker News
    • Fico muito incomodado com este trabalho apresentado em nome da pesquisa científica. Isso só pode ser explicado como autopromoção, publicidade e marketing. Não foi descrito nenhum processo reproduzível, e o diagrama de arquitetura pode inspirar, mas não permite falseabilidade, o aspecto mais importante de um esforço científico. Como não há como verificar se o Google está mentindo, temos que assumir que todos os exemplos foram selecionados e pós-processados. Temos que assumir que os dados usados para treinar o modelo foram obtidos ilegalmente. Como o Google agora faz rotineiramente afirmações impossíveis de provar, é preciso partir de um ceticismo extremo. Por exemplo, o desempenho do Gemini no Bard fica muito aquém do GPT-4. Quando divulgaram um vídeo alegando interação com o modelo, na verdade não era isso.
    • Os exemplos parecem muito mais consistentes e longos do que as tecnologias que vi antes. Em comparação com outros modelos, há muito menos pernas escorregando pelo chão. Por outro lado, rostos humanos não parecem bons. O exemplo da Mona Lisa sorrindo, por exemplo. Isso parece ser o primeiro bom modelo de geração de vídeo. Edit: acabei de perceber que foi feito pelo Google, então não deve ser lançado nunca.
    • No GitHub deles não há nada além da página atualmente vinculada. Eles nunca chegaram a afirmar que iriam lançar isso. Mesmo assim, precisei conferir, e não vi nenhum link levando ao perfil do GitHub. Para quem não quiser digitar manualmente a URL do site hospedado, compartilho o link aqui.
    • O inpainting de vídeo é interessante. Recentemente, as crianças estavam assistindo a episódios antigos de Bob Esponja, e a proporção 4:3 chamou atenção. Inpaintar as bordas laterais para voltar ao formato 16:9 parece um caso de uso interessante. Mas parece que seria necessário algum tipo de previsão do que entra em cena pelas laterais.
    • Por causa da natureza bizarra e onírica dessas pequenas amostras de geração de vídeo por IA, sempre fico decepcionado que esses artigos não incluam “ovelhas elétricas sonham” como easter egg no prompt.
    • Se essa apresentação tivesse saído apenas 2 ou 3 anos atrás, seria realmente impressionante. Todos nós nos acostumamos com esses novos produtos surgindo de forma muito rápida e frequente, mas ainda assim acho impressionante. Mal posso esperar pelo dia em que teremos software com esse tipo de capacidade. Edit: como foi feito pelo Google, vou esperar até que algum open source seja lançado.
    • Muitas vezes parece que misturam imagens antigas com datasets modernos. Se você pegar um retrato de George Washington e pedir “homem sorrindo”, aparecerá a dentadura dele ou dentes brancos?
    • Alguns comentários: como é do Google, não vamos poder usar isso diretamente. Ainda assim, a ideia é muito interessante -- treinar o modelo para gerar uma pequena representação temporal completa do vídeo e depois fazer upscale tanto no tempo quanto nos pixels. Já vi modelos que adicionam mapas de profundidade, mas este adiciona um “mapa temporal” como outra dimensão. A consistência parece bem boa. Vejo mais estranheza no modelo decidir o que ele “deve fazer” ao longo do tempo. O grande insight do pessoal do Google é que a consistência pode ser condicionada, treinada e gerada como algo próprio. Isso parece algo que outros provedores de modelos, como a Stability, podem replicar; não há nada que pareça impossível de implementar.
    • Um artigo com tema de pixels em um post com tema de pixels. Bastante impressionante e provavelmente vai provocar em breve uma enorme onda de programas do tipo “faça um filme com um parágrafo”. Como é do Google, provavelmente vai ser trancado numa caixa e virar um dispositivo estilo Rick and Morty que nunca veremos. O formato da lista de autores é legal. Autor principal, afiliação institucional, e a notação 1,2,3,4,*,+ para contribuintes centrais ficou boa. Já li muitos artigos de astronomia e física com mais de 10 autores e não faço ideia de quem fez o quê. Por exemplo, o link do arXiv não mostra um formato semelhante. Provavelmente será usado imediatamente para pornografia abusiva. Exemplo da mulher caminhando: (5ª variação) “sem roupa”.
    • Veremos este ano o primeiro filme de longa-metragem gerado por IA. Se você acha que enlouqueci, considere que mesmo no alvorecer do cinema a duração média dos planos era de 12 segundos, e hoje é de apenas 2,5 segundos. Algumas técnicas importantes ainda precisam ser refinadas, como manter temas consistentes entre gerações, mas muita inconsistência pode ser compensada com métodos existentes, como separar camadas por profundidade para usar imagens mais estáticas, ou gerar modelos 3D simples com textura onde for necessária mais profundidade. Alguém com esforço e habilidade suficientes provavelmente já conseguiria fazer isso com a tecnologia atual.