4 pontos por GN⁺ 2024-04-20 | 2 comentários | Compartilhar no WhatsApp
  • A Microsoft Research revelou um novo projeto chamado VASA-1
  • Uma tecnologia que gera vídeos realistas de rostos falantes a partir de apenas uma foto de uma pessoa e entrada de áudio em tempo real
  • Os lábios e as expressões faciais se movem naturalmente de acordo com a voz, com um realismo tão alto que é quase impossível distinguir de uma pessoa real falando
  • Usa um modelo de difusão que aceita sinais opcionais como condição (direção principal do olhar, distância da cabeça, deslocamento emocional etc.) e apresenta resultados gerados conforme a direção principal do olhar (frente, esquerda, direita, cima), a escala de distância da cabeça e o deslocamento emocional (neutro, felicidade, raiva, surpresa)
  • No modo de processamento em lote offline, gera frames de vídeo em resolução 512x512 a 45 quadros por segundo
  • No modo de streaming online, suporta até 40 quadros por segundo e requer apenas 170 ms de latência inicial (em um desktop com uma GPU NVIDIA RTX 4090)

Opinião do GN⁺

  • Se uma tecnologia assim se tornar prática, poderá ser usada em diversas áreas, como humanos virtuais, avatares de IA e metaverso. Em especial, deve haver muita demanda na indústria do entretenimento, como jogos, filmes e animação
  • Por outro lado, também há preocupação com usos indevidos, como a criação de fake news ou vídeos deepfake com o rosto de celebridades. Serão necessários mecanismos técnicos e institucionais para evitar usos maliciosos
  • Entre tecnologias semelhantes está o Audio2Face, anunciado pela NVIDIA. Enquanto elas em geral só conseguem gerar rostos de pessoas específicas previamente treinadas, o VASA-1 se diferencia por poder gerar novos rostos em tempo real
  • Segundo a equipe de desenvolvimento, o VASA-1 ainda está em estágio inicial e há planos para melhorar ainda mais a qualidade de imagem e a estabilidade no futuro. Embora a comercialização ainda deva levar tempo, espera-se que um dia encontremos esses humanos artificiais no nosso cotidiano

2 comentários

 
tomriddle7 2024-04-22

No episódio 1394 de Unanswered Questions, apareceu um caso em que usaram foto & áudio para se passar por uma celebridade e extorquir dinheiro, então é preocupante pensar que isso possa ser usado indevidamente dessa forma.

 
GN⁺ 2024-04-20
Comentários do Hacker News

Resumo:

  • O VASA-1 da Microsoft consegue criar deepfakes com apenas uma foto e uma faixa de áudio. A tecnologia de deepfake parece estar ficando cada vez mais rápida, melhor, mais fácil e mais barata.
  • Enquanto isso, empresas de cartão de crédito adotaram autenticação por voz, mas não percebem que qualquer pessoa pode obter um pequeno clipe de áudio em redes sociais e clonar uma voz. As empresas estão atrasadas em relação aos tempos.
  • O VASA-1 não é tão bom quanto o EMO. Há movimentos corporais que parecem falsos, e há muitos trechos em que a sincronização labial não funciona corretamente. Os movimentos dos olhos e os movimentos gerais da cabeça e do corpo não parecem naturais.
  • O único propósito dessa tecnologia parece ser permitir que espiões abusem de outras pessoas. Será que no futuro teremos que autenticar todas as chamadas e videoconferências?
  • Este artigo menciona o uso de Diffusion Transformers. A implementação open source é a implementação em PyTorch da Facebook Research, mas com licença não comercial. Fico me perguntando se existe algum equivalente com licença MIT ou Apache.
  • Precisamos de algum tipo de sistema de governança que garanta a autenticidade do que vemos. Mas não é um problema simples, já que editar fotos/vídeos quebra assinaturas e coisas do tipo.
  • Essa é uma tecnologia absolutamente insana, e vai ficar ainda melhor no futuro. Eu achava que deepfakes ainda estavam longe, mas parece que teremos que ser mais cuidadosos online.
  • Um avanço tecnológico fantástico para interferência eleitoral!