VASA-1: geração em tempo real de rostos falantes com uma foto e áudio

(microsoft.com)

4 pontos por GN⁺ 2024-04-20 | 2 comentários | Compartilhar no WhatsApp

A Microsoft Research revelou um novo projeto chamado VASA-1
Uma tecnologia que gera vídeos realistas de rostos falantes a partir de apenas uma foto de uma pessoa e entrada de áudio em tempo real
Os lábios e as expressões faciais se movem naturalmente de acordo com a voz, com um realismo tão alto que é quase impossível distinguir de uma pessoa real falando
Usa um modelo de difusão que aceita sinais opcionais como condição (direção principal do olhar, distância da cabeça, deslocamento emocional etc.) e apresenta resultados gerados conforme a direção principal do olhar (frente, esquerda, direita, cima), a escala de distância da cabeça e o deslocamento emocional (neutro, felicidade, raiva, surpresa)
No modo de processamento em lote offline, gera frames de vídeo em resolução 512x512 a 45 quadros por segundo
No modo de streaming online, suporta até 40 quadros por segundo e requer apenas 170 ms de latência inicial (em um desktop com uma GPU NVIDIA RTX 4090)

Opinião do GN⁺

Se uma tecnologia assim se tornar prática, poderá ser usada em diversas áreas, como humanos virtuais, avatares de IA e metaverso. Em especial, deve haver muita demanda na indústria do entretenimento, como jogos, filmes e animação
Por outro lado, também há preocupação com usos indevidos, como a criação de fake news ou vídeos deepfake com o rosto de celebridades. Serão necessários mecanismos técnicos e institucionais para evitar usos maliciosos
Entre tecnologias semelhantes está o Audio2Face, anunciado pela NVIDIA. Enquanto elas em geral só conseguem gerar rostos de pessoas específicas previamente treinadas, o VASA-1 se diferencia por poder gerar novos rostos em tempo real
Segundo a equipe de desenvolvimento, o VASA-1 ainda está em estágio inicial e há planos para melhorar ainda mais a qualidade de imagem e a estabilidade no futuro. Embora a comercialização ainda deva levar tempo, espera-se que um dia encontremos esses humanos artificiais no nosso cotidiano

2 comentários

tomriddle7 2024-04-22

No episódio 1394 de Unanswered Questions, apareceu um caso em que usaram foto & áudio para se passar por uma celebridade e extorquir dinheiro, então é preocupante pensar que isso possa ser usado indevidamente dessa forma.

GN⁺ 2024-04-20

Comentários do Hacker News

Resumo:

O VASA-1 da Microsoft consegue criar deepfakes com apenas uma foto e uma faixa de áudio. A tecnologia de deepfake parece estar ficando cada vez mais rápida, melhor, mais fácil e mais barata.
Enquanto isso, empresas de cartão de crédito adotaram autenticação por voz, mas não percebem que qualquer pessoa pode obter um pequeno clipe de áudio em redes sociais e clonar uma voz. As empresas estão atrasadas em relação aos tempos.
O VASA-1 não é tão bom quanto o EMO. Há movimentos corporais que parecem falsos, e há muitos trechos em que a sincronização labial não funciona corretamente. Os movimentos dos olhos e os movimentos gerais da cabeça e do corpo não parecem naturais.
O único propósito dessa tecnologia parece ser permitir que espiões abusem de outras pessoas. Será que no futuro teremos que autenticar todas as chamadas e videoconferências?
Este artigo menciona o uso de Diffusion Transformers. A implementação open source é a implementação em PyTorch da Facebook Research, mas com licença não comercial. Fico me perguntando se existe algum equivalente com licença MIT ou Apache.
Precisamos de algum tipo de sistema de governança que garanta a autenticidade do que vemos. Mas não é um problema simples, já que editar fotos/vídeos quebra assinaturas e coisas do tipo.
Essa é uma tecnologia absolutamente insana, e vai ficar ainda melhor no futuro. Eu achava que deepfakes ainda estavam longe, mas parece que teremos que ser mais cuidadosos online.
Um avanço tecnológico fantástico para interferência eleitoral!

VASA-1: geração em tempo real de rostos falantes com uma foto e áudio

Opinião do GN⁺

Leituras relacionadas

2 comentários

Comentários do Hacker News