9 pontos por xguru 2022-10-07 | 1 comentários | Compartilhar no WhatsApp
  • Um "sistema de geração de vídeo condicionado por texto" que cria vídeos a partir de texto usando um Video Diffusion Model
  • O destaque é gerar a partir do texto um vídeo em baixa resolução (24x48 pixels, 16 frames, 3 fps) e depois fazer upscaling por meio de uma cascata de 7 modelos de difusão sobrepostos
  • A saída final é de 1280x768 a 24 fps. É possível gerar vídeos com 5,3 segundos de duração
  • Artigo: Imagen Video : High Definition Video Generation with Diffusion Models