Animate Anyone: tecnologia de síntese de imagem para vídeo para animação de personagens

(humanaigc.github.io)

15 pontos por GN⁺ 2023-12-02 | 3 comentários | Compartilhar no WhatsApp

Técnica consistente e controlável de síntese de imagem para vídeo para animação de personagens

A animação de personagens tem como objetivo gerar vídeos de personagens a partir de imagens estáticas com base em sinais de movimento.
Modelos de difusão dominam a pesquisa em geração visual graças à sua forte capacidade generativa, mas no campo de imagem para vídeo, especialmente na animação de personagens, manter os detalhes temporalmente consistentes continua sendo um grande desafio.
Neste artigo, é proposto um novo framework para animação de personagens que aproveita as vantagens dos modelos de difusão, e é projetada a ReferenceNet para preservar as características visuais complexas da imagem de referência, integrando atributos detalhados por meio de atenção espacial.

Metodologia

A visão geral do método proposto usa o Pose Guider para codificar inicialmente a sequência de poses e, após fundi-la com ruído de múltiplos frames, o Denoising UNet executa o processo de remoção de ruído para gerar o vídeo.
Os blocos computacionais do Denoising UNet são compostos por atenção espacial, atenção cruzada e atenção temporal, e a integração da imagem de referência inclui dois aspectos.
Primeiro, as características detalhadas extraídas pela ReferenceNet são usadas na atenção espacial e, segundo, as características semânticas extraídas pelo codificador de imagem CLIP são usadas na atenção cruzada.
A atenção temporal opera na dimensão do tempo e, por fim, o decodificador VAE decodifica o resultado em um clipe de vídeo.

Diversas animações de personagens

É possível animar diversos tipos de personagens, incluindo humanos, anime/quadrinhos e personagens humanoides.
A síntese de vídeos de moda tem como objetivo transformar fotos de moda em vídeos animados realistas, e os experimentos foram realizados no conjunto de dados UBC Fashion Video usando os mesmos dados de treinamento.
A geração de dança humana foca em animar imagens em cenários reais de dança, e os experimentos foram realizados no conjunto de dados TikTok usando os mesmos dados de treinamento.

Opinião do GN⁺

Esta pesquisa representa um avanço importante no campo da animação de personagens, apresentando uma nova forma de gerar vídeos a partir de imagens com o uso de modelos de difusão.
A capacidade de controlar com precisão os movimentos do personagem ao mesmo tempo em que preserva as características detalhadas da imagem de referência pode ter grande impacto nas indústrias de animação e efeitos visuais.
Este texto oferece informações interessantes sobre uma abordagem inovadora para animação de personagens e sobre como ela pode ser aplicada a diversos personagens e cenários.

3 comentários

laeyoung 2023-12-04

Pensando em animações cujo estilo visual desmoronou por causa de cronogramas atrasados, talvez o resultado aqui acabe sendo até melhor. Claro que ainda vai precisar de alguma intervenção humana no processo de pós-produção.

xguru 2023-12-02

E os resultados são impressionantes. A área de vídeo também está evoluindo muito rápido.

GN⁺ 2023-12-02

Comentários do Hacker News

Admiração por estar vendo pela primeira vez uma IA gerar movimentos humanos convincentes
- É provável que a estrutura esquelética do movimento real tenha vindo de captura de movimento
- Curiosidade sobre o nível atual da tecnologia para gerar esqueletos de movimento, algo importante para videogames
- Cita Rock, Paper, Scissors, do Corridor Crew, como o nível anterior mais alto em animação de personagens com IA
- Expectativa de que a barreira de entrada para produzir animação vai cair bastante
- Aumenta o aspecto assustador relacionado a namoradas de IA
Surpresa com a possibilidade de que, em alguns anos, essa tecnologia possa se generalizar além de personagens jovens e mulheres tradicionalmente atraentes
Levantamento de dúvidas sobre publicar resultados de pesquisa no Github sem disponibilizar o código
- Considera essa tendência estranha
Expectativa por uma ferramenta ou cadeia de ferramentas que permita transformar um mangá favorito em animação
- Espera poder consumir a temporada 1 ou um OVA sem esperar o lançamento oficial, para então ver a temporada 2
Imaginação de que, em alguns anos, surgirão sites como o YouTube onde todos os vídeos serão gerados em tempo real
- Expectativa de que tudo, de reparo de eletrônicos ao aprendizado de ciências, seja adaptado ao nível de aprendizado e aos interesses do usuário
Crítica de que a escolha das imagens de teste foi inadequada
- Defende o uso de datasets variados e padronizados
- Cita críticas ao uso de imagens sexualizadas em aulas de processamento de imagem
Suspeita de que as amostras foram selecionadas a dedo e de que o sistema esteja overfitted ao dataset, sem generalizar para outros casos
- A ausência de casos de falha é um sinal de alerta
- Mesmo na forma atual, pode ser útil, e para criar um sistema mais geral o principal é coletar dados de treino adequados
Imaginação do que aconteceria quando essa tecnologia fosse combinada com modelagem 3D e VR
- Pornografia em VR, videogames com personagens de IA dinâmicos, e atores falecidos e figuras históricas ressuscitados para filmes e educação
- Reduz o medo em relação aos asilos do futuro
Dúvida sobre por que tudo nessa área tende para o lado sexual
- Reconhece que isso pode ser um problema, mas também há uma postura de acolher quando as pessoas revelam suas intenções com sinceridade