Lumiere: modelo de difusão espaço-temporal para geração de vídeos realistas
(lumiere-video.github.io)Texto para vídeo
- A equipe de pesquisa do Google apresentou o Lumiere, um modelo de difusão de texto para vídeo.
- Este modelo se concentra em sintetizar vídeos que expressem movimentos realistas, diversos e consistentes.
- Usa uma arquitetura U-Net espaço-temporal para gerar de uma só vez toda a duração do vídeo.
Imagem para vídeo
- Com o Lumiere, é possível gerar vídeos no estilo desejado usando uma única imagem de referência.
- Aproveita pesos de um modelo de texto para imagem ajustado finamente.
Estilização de vídeo
- Com o Lumiere, métodos existentes de edição de imagem baseada em texto podem ser usados para edição consistente de vídeo.
Cinemagraphs
- O modelo Lumiere pode animar o conteúdo de uma imagem dentro de áreas específicas fornecidas pelo usuário.
Inpainting de vídeo
- O modelo Lumiere pode restaurar o conteúdo de vídeos mascarados para gerar um vídeo completo.
Autores e agradecimentos
- A equipe de pesquisa é composta por coautores do Google Research e de várias universidades.
- Agradecem aos autores que contribuíram para a pesquisa durante estágios, bem como a várias pessoas que ofereceram colaboração e apoio.
Opinião do GN⁺:
- O modelo Lumiere representa um avanço importante na área de síntese de vídeo. A possibilidade de gerar vídeos com movimentos realistas e diversos deve ser de grande ajuda para criadores de conteúdo e editores de vídeo.
- Essa tecnologia pode contribuir especialmente para fortalecer a narrativa visual em setores como cinema e publicidade, além de ampliar a expressão criativa.
- O desenvolvimento do Lumiere mostra como ferramentas criativas baseadas em inteligência artificial estão transformando o trabalho criativo.
1 comentários
Comentários do Hacker News