VideoLDM - Síntese de Text-to-Video em alta resolução usando Latent Diffusion Model

xguru · 2023-04-22T10:18:01+09:00

O LDM aprende o Diffusion Model em um espaço latente comprimido e de baixa dimensionalidade, permitindo a síntese de imagens em alta resolução sem exigir muitos recursos computacionais Artigo da NVIDIA que aplica esse LDM a vídeo em alta resolução O LDM é pré-treinado apenas para imagens e, ao introduzir a dimensão temporal e ajustar sequências de imagens codificadas, o gerador de imagens é convertido em um gerador de vídeo Alinha o upsampler do modelo de difusão para transformá-lo em um modelo de vídeo em ultra-alta resolução com consistência temporal

(research.nvidia.com)

7 pontos por xguru 2023-04-22 | Ainda não há comentários. | Compartilhar no WhatsApp

O LDM aprende o Diffusion Model em um espaço latente comprimido e de baixa dimensionalidade, permitindo a síntese de imagens em alta resolução sem exigir muitos recursos computacionais
Artigo da NVIDIA que aplica esse LDM a vídeo em alta resolução
O LDM é pré-treinado apenas para imagens e, ao introduzir a dimensão temporal e ajustar sequências de imagens codificadas, o gerador de imagens é convertido em um gerador de vídeo
Alinha o upsampler do modelo de difusão para transformá-lo em um modelo de vídeo em ultra-alta resolução com consistência temporal

VideoLDM - Síntese de Text-to-Video em alta resolução usando Latent Diffusion Model

Leituras relacionadas

Ainda não há comentários.