- O LDM aprende o Diffusion Model em um espaço latente comprimido e de baixa dimensionalidade, permitindo a síntese de imagens em alta resolução sem exigir muitos recursos computacionais
- Artigo da NVIDIA que aplica esse LDM a vídeo em alta resolução
- O LDM é pré-treinado apenas para imagens e, ao introduzir a dimensão temporal e ajustar sequências de imagens codificadas, o gerador de imagens é convertido em um gerador de vídeo
- Alinha o upsampler do modelo de difusão para transformá-lo em um modelo de vídeo em ultra-alta resolução com consistência temporal
Ainda não há comentários.