- A Microsoft Research revelou um novo projeto chamado VASA-1
- Uma tecnologia que gera vídeos realistas de rostos falantes a partir de apenas uma foto de uma pessoa e entrada de áudio em tempo real
- Os lábios e as expressões faciais se movem naturalmente de acordo com a voz, com um realismo tão alto que é quase impossível distinguir de uma pessoa real falando
- Usa um modelo de difusão que aceita sinais opcionais como condição (direção principal do olhar, distância da cabeça, deslocamento emocional etc.) e apresenta resultados gerados conforme a direção principal do olhar (frente, esquerda, direita, cima), a escala de distância da cabeça e o deslocamento emocional (neutro, felicidade, raiva, surpresa)
- No modo de processamento em lote offline, gera frames de vídeo em resolução 512x512 a 45 quadros por segundo
- No modo de streaming online, suporta até 40 quadros por segundo e requer apenas 170 ms de latência inicial (em um desktop com uma GPU NVIDIA RTX 4090)
Opinião do GN⁺
- Se uma tecnologia assim se tornar prática, poderá ser usada em diversas áreas, como humanos virtuais, avatares de IA e metaverso. Em especial, deve haver muita demanda na indústria do entretenimento, como jogos, filmes e animação
- Por outro lado, também há preocupação com usos indevidos, como a criação de fake news ou vídeos deepfake com o rosto de celebridades. Serão necessários mecanismos técnicos e institucionais para evitar usos maliciosos
- Entre tecnologias semelhantes está o Audio2Face, anunciado pela NVIDIA. Enquanto elas em geral só conseguem gerar rostos de pessoas específicas previamente treinadas, o VASA-1 se diferencia por poder gerar novos rostos em tempo real
- Segundo a equipe de desenvolvimento, o VASA-1 ainda está em estágio inicial e há planos para melhorar ainda mais a qualidade de imagem e a estabilidade no futuro. Embora a comercialização ainda deva levar tempo, espera-se que um dia encontremos esses humanos artificiais no nosso cotidiano
2 comentários
No episódio 1394 de Unanswered Questions, apareceu um caso em que usaram foto & áudio para se passar por uma celebridade e extorquir dinheiro, então é preocupante pensar que isso possa ser usado indevidamente dessa forma.
Comentários do Hacker News
Resumo: