Show HN: Infinity – personagens de IA realistas que podem falar

(news.ycombinator.com)

1 pontos por GN⁺ 2024-09-07 | 1 comentários | Compartilhar no WhatsApp

A Infinity AI está treinando um modelo fundacional de vídeo centrado em pessoas para gerar vídeos de personagens falando apenas a partir de entrada de áudio
Criadores podem inserir o roteiro que o personagem deve falar para gerar um vídeo, e o objetivo futuro é também permitir especificar ações
A V2 é um modelo end-to-end que recebe uma única imagem, áudio e sinais condicionais para criar vídeo, numa abordagem que busca reduzir a inconsistência entre expressões e gestos dos métodos tradicionais de lip sync
Até agora, foram investidos cerca de 11 GPU-anos e aproximadamente US$ 500 mil, mas a velocidade de geração ainda é lenta mesmo com rectified flow e uma 3D VAE embedding layer
O sistema mostra pontos fortes em multilinguismo, movimento físico, imagens como pinturas ou esculturas e canto, mas ainda mantém modos de falha como animais, cartoons, inserção de mãos e distorção da identidade de celebridades

Vídeos de personagens falantes gerados pelo Infinity V2

A Infinity AI está treinando seu próprio modelo fundacional de vídeo focado em pessoas
Pelo que a equipe sabe, este está entre os primeiros casos de treinamento de um transformer de difusão de vídeo acionado por entrada de áudio
A abordagem tem como foco criar vídeos em que personagens expressivos e com aparência realista realmente falam
Vídeos de exemplo podem ser vistos no V2 launch blog
Também é possível testar o modelo diretamente no Infinity Studio
A equipe diz que, se você deixar uma descrição de personagem nos comentários do HN, eles gerarão um vídeo e responderão com um link
- “Mona Lisa saying ‘what the heck are you smiling at?’”
- “A 3D pixar-style gnome with a pointy red hat reciting the Declaration of Independence”
- “Elon Musk singing Fly Me To The Moon by Sinatra”

Modelos generativos de vídeo com IA como Runway e Luma não são adequados para fazer personagens falarem
Serviços de avatares falantes como HeyGen e Synthesia aplicam lip sync sobre vídeos pré-gravados
- Áudio e expressões/gestos podem ficar desalinhados
- Essa inconsistência pode levar a uma sensação estranha de uncanny valley, difícil de diagnosticar
O Infinity V1 também usava uma abordagem de lip sync
- Ainda havia incompatibilidade nos gestos
- Era necessário fazer fine-tuning do modelo para cada ator com material de vídeo existente, então a biblioteca de atores era limitada
- Era difícil animar personagens imaginários
A V2 mudou para um transformer de difusão de vídeo end-to-end que recebe imagem única, áudio e outros sinais condicionais como entrada e gera vídeo como saída
- A equipe considera que essa abordagem é a mais adequada para capturar a complexidade e as nuances dos movimentos e emoções humanos
- A desvantagem é a baixa velocidade de geração
- Houve ganho de 2 a 4 vezes com rectified flow e de 2 a 5 vezes com uma 3D VAE embedding layer, mas ainda assim continua lento
Até agora, cerca de 11 GPU-anos e aproximadamente US$ 500 mil foram investidos no treinamento, e o modelo continua em desenvolvimento

Pontos fortes
- Consegue lidar com vários idiomas
- Aprendeu certa física, como brincos balançando naturalmente e a inferência do par na orelha oposta
- Também consegue animar tipos de imagem não vistos no treinamento, como pinturas e esculturas
- Consegue lidar com canto
Limitações
- Não consegue lidar com animais e responde apenas a imagens humanoides
- Frequentemente insere mãos no quadro, o que pode atrapalhar
- Não é robusto com cartoons
- Pode distorcer a identidade de pessoas, algo especialmente perceptível em figuras públicas

GN⁺ 2024-09-07

Parece uma imitação inferior do Hedra e, por enquanto, está bem atrás
Usei texto-para-imagem para gerar um fuzileiro espacial, e saiu um resultado impressionante mesmo sem ajustes adicionais
Assim que vi a opção de rosto "Gnome", soube o que precisava fazer
O modelo parece não gostar de Duke Nukem
Quando cortei a pistola dele, a situação piorou
As outras imagens mostram resultados um pouco melhores
Esta imagem é a minha favorita
Alguém tinha que fazer isso
Existem trabalhos anteriores, como o Emo da Alibaba Research, mas este demo é impressionante porque as pessoas realmente podem testá-lo
Tentei transformar um meme em realidade, mas a imagem original era difícil
- Há um pequeno problema de idioma no áudio
Tentei forçar rumo ao vale da estranheza, mas foi bem difícil
Às vezes ele insere uma mão no quadro
- Parece que foi treinado com dados italianos demais
Esta ferramenta é muito impressionante
- Em áudios curtos (3–5 segundos), há um pequeno problema em que a imagem permanece completamente estática