Técnica consistente e controlável de síntese de imagem para vídeo para animação de personagens
- A animação de personagens tem como objetivo gerar vídeos de personagens a partir de imagens estáticas com base em sinais de movimento.
- Modelos de difusão dominam a pesquisa em geração visual graças à sua forte capacidade generativa, mas no campo de imagem para vídeo, especialmente na animação de personagens, manter os detalhes temporalmente consistentes continua sendo um grande desafio.
- Neste artigo, é proposto um novo framework para animação de personagens que aproveita as vantagens dos modelos de difusão, e é projetada a ReferenceNet para preservar as características visuais complexas da imagem de referência, integrando atributos detalhados por meio de atenção espacial.
Metodologia
- A visão geral do método proposto usa o Pose Guider para codificar inicialmente a sequência de poses e, após fundi-la com ruído de múltiplos frames, o Denoising UNet executa o processo de remoção de ruído para gerar o vídeo.
- Os blocos computacionais do Denoising UNet são compostos por atenção espacial, atenção cruzada e atenção temporal, e a integração da imagem de referência inclui dois aspectos.
- Primeiro, as características detalhadas extraídas pela ReferenceNet são usadas na atenção espacial e, segundo, as características semânticas extraídas pelo codificador de imagem CLIP são usadas na atenção cruzada.
- A atenção temporal opera na dimensão do tempo e, por fim, o decodificador VAE decodifica o resultado em um clipe de vídeo.
Diversas animações de personagens
- É possível animar diversos tipos de personagens, incluindo humanos, anime/quadrinhos e personagens humanoides.
- A síntese de vídeos de moda tem como objetivo transformar fotos de moda em vídeos animados realistas, e os experimentos foram realizados no conjunto de dados UBC Fashion Video usando os mesmos dados de treinamento.
- A geração de dança humana foca em animar imagens em cenários reais de dança, e os experimentos foram realizados no conjunto de dados TikTok usando os mesmos dados de treinamento.
Opinião do GN⁺
- Esta pesquisa representa um avanço importante no campo da animação de personagens, apresentando uma nova forma de gerar vídeos a partir de imagens com o uso de modelos de difusão.
- A capacidade de controlar com precisão os movimentos do personagem ao mesmo tempo em que preserva as características detalhadas da imagem de referência pode ter grande impacto nas indústrias de animação e efeitos visuais.
- Este texto oferece informações interessantes sobre uma abordagem inovadora para animação de personagens e sobre como ela pode ser aplicada a diversos personagens e cenários.
3 comentários
Pensando em animações cujo estilo visual desmoronou por causa de cronogramas atrasados, talvez o resultado aqui acabe sendo até melhor. Claro que ainda vai precisar de alguma intervenção humana no processo de pós-produção.
E os resultados são impressionantes. A área de vídeo também está evoluindo muito rápido.
Comentários do Hacker News
Admiração por estar vendo pela primeira vez uma IA gerar movimentos humanos convincentes
Surpresa com a possibilidade de que, em alguns anos, essa tecnologia possa se generalizar além de personagens jovens e mulheres tradicionalmente atraentes
Levantamento de dúvidas sobre publicar resultados de pesquisa no Github sem disponibilizar o código
Expectativa por uma ferramenta ou cadeia de ferramentas que permita transformar um mangá favorito em animação
Imaginação de que, em alguns anos, surgirão sites como o YouTube onde todos os vídeos serão gerados em tempo real
Crítica de que a escolha das imagens de teste foi inadequada
Suspeita de que as amostras foram selecionadas a dedo e de que o sistema esteja overfitted ao dataset, sem generalizar para outros casos
Imaginação do que aconteceria quando essa tecnologia fosse combinada com modelagem 3D e VR
Dúvida sobre por que tudo nessa área tende para o lado sexual