15 pontos por GN⁺ 2023-12-02 | 3 comentários | Compartilhar no WhatsApp

Técnica consistente e controlável de síntese de imagem para vídeo para animação de personagens

  • A animação de personagens tem como objetivo gerar vídeos de personagens a partir de imagens estáticas com base em sinais de movimento.
  • Modelos de difusão dominam a pesquisa em geração visual graças à sua forte capacidade generativa, mas no campo de imagem para vídeo, especialmente na animação de personagens, manter os detalhes temporalmente consistentes continua sendo um grande desafio.
  • Neste artigo, é proposto um novo framework para animação de personagens que aproveita as vantagens dos modelos de difusão, e é projetada a ReferenceNet para preservar as características visuais complexas da imagem de referência, integrando atributos detalhados por meio de atenção espacial.

Metodologia

  • A visão geral do método proposto usa o Pose Guider para codificar inicialmente a sequência de poses e, após fundi-la com ruído de múltiplos frames, o Denoising UNet executa o processo de remoção de ruído para gerar o vídeo.
  • Os blocos computacionais do Denoising UNet são compostos por atenção espacial, atenção cruzada e atenção temporal, e a integração da imagem de referência inclui dois aspectos.
  • Primeiro, as características detalhadas extraídas pela ReferenceNet são usadas na atenção espacial e, segundo, as características semânticas extraídas pelo codificador de imagem CLIP são usadas na atenção cruzada.
  • A atenção temporal opera na dimensão do tempo e, por fim, o decodificador VAE decodifica o resultado em um clipe de vídeo.

Diversas animações de personagens

  • É possível animar diversos tipos de personagens, incluindo humanos, anime/quadrinhos e personagens humanoides.
  • A síntese de vídeos de moda tem como objetivo transformar fotos de moda em vídeos animados realistas, e os experimentos foram realizados no conjunto de dados UBC Fashion Video usando os mesmos dados de treinamento.
  • A geração de dança humana foca em animar imagens em cenários reais de dança, e os experimentos foram realizados no conjunto de dados TikTok usando os mesmos dados de treinamento.

Opinião do GN⁺

  • Esta pesquisa representa um avanço importante no campo da animação de personagens, apresentando uma nova forma de gerar vídeos a partir de imagens com o uso de modelos de difusão.
  • A capacidade de controlar com precisão os movimentos do personagem ao mesmo tempo em que preserva as características detalhadas da imagem de referência pode ter grande impacto nas indústrias de animação e efeitos visuais.
  • Este texto oferece informações interessantes sobre uma abordagem inovadora para animação de personagens e sobre como ela pode ser aplicada a diversos personagens e cenários.

3 comentários

 
laeyoung 2023-12-04

Pensando em animações cujo estilo visual desmoronou por causa de cronogramas atrasados, talvez o resultado aqui acabe sendo até melhor. Claro que ainda vai precisar de alguma intervenção humana no processo de pós-produção.

 
xguru 2023-12-02

E os resultados são impressionantes. A área de vídeo também está evoluindo muito rápido.

 
GN⁺ 2023-12-02
Comentários do Hacker News
  • Admiração por estar vendo pela primeira vez uma IA gerar movimentos humanos convincentes

    • É provável que a estrutura esquelética do movimento real tenha vindo de captura de movimento
    • Curiosidade sobre o nível atual da tecnologia para gerar esqueletos de movimento, algo importante para videogames
    • Cita Rock, Paper, Scissors, do Corridor Crew, como o nível anterior mais alto em animação de personagens com IA
    • Expectativa de que a barreira de entrada para produzir animação vai cair bastante
    • Aumenta o aspecto assustador relacionado a namoradas de IA
  • Surpresa com a possibilidade de que, em alguns anos, essa tecnologia possa se generalizar além de personagens jovens e mulheres tradicionalmente atraentes

  • Levantamento de dúvidas sobre publicar resultados de pesquisa no Github sem disponibilizar o código

    • Considera essa tendência estranha
  • Expectativa por uma ferramenta ou cadeia de ferramentas que permita transformar um mangá favorito em animação

    • Espera poder consumir a temporada 1 ou um OVA sem esperar o lançamento oficial, para então ver a temporada 2
  • Imaginação de que, em alguns anos, surgirão sites como o YouTube onde todos os vídeos serão gerados em tempo real

    • Expectativa de que tudo, de reparo de eletrônicos ao aprendizado de ciências, seja adaptado ao nível de aprendizado e aos interesses do usuário
  • Crítica de que a escolha das imagens de teste foi inadequada

    • Defende o uso de datasets variados e padronizados
    • Cita críticas ao uso de imagens sexualizadas em aulas de processamento de imagem
  • Suspeita de que as amostras foram selecionadas a dedo e de que o sistema esteja overfitted ao dataset, sem generalizar para outros casos

    • A ausência de casos de falha é um sinal de alerta
    • Mesmo na forma atual, pode ser útil, e para criar um sistema mais geral o principal é coletar dados de treino adequados
  • Imaginação do que aconteceria quando essa tecnologia fosse combinada com modelagem 3D e VR

    • Pornografia em VR, videogames com personagens de IA dinâmicos, e atores falecidos e figuras históricas ressuscitados para filmes e educação
    • Reduz o medo em relação aos asilos do futuro
  • Dúvida sobre por que tudo nessa área tende para o lado sexual

    • Reconhece que isso pode ser um problema, mas também há uma postura de acolher quando as pessoas revelam suas intenções com sinceridade