1 pontos por GN⁺ 2024-09-07 | 1 comentários | Compartilhar no WhatsApp

Apresentação da Infinity AI

  • A Infinity AI é uma empresa que treinou um modelo de vídeo centrado em pessoas
  • É o primeiro caso de treinamento de um transformador de difusão de vídeo acionado por entrada de áudio
  • Esse modelo pode gerar personagens expressivos e realistas que realmente falam

Como usar

  • Usando a ferramenta da Infinity AI, é possível inserir um roteiro e gerar um vídeo de um personagem falando
  • Exemplos:
    • "Um vídeo da Mona Lisa dizendo 'Do que você está rindo?'"
    • "Um vídeo de um gnomo 3D no estilo Pixar, usando um chapéu vermelho, lendo a Declaração de Independência"
    • "Um vídeo de Elon Musk cantando 'Fly Me To The Moon', de Frank Sinatra"

Problemas das ferramentas de IA existentes

  • Os modelos de vídeo de IA generativa existentes não conseguiam fazer personagens falarem
  • As empresas de avatares falantes existentes adicionavam lip sync em cima de vídeos já existentes
  • Isso fazia surgir expressões faciais e gestos que não combinavam com o áudio, causando o efeito de "uncanny valley"

Limitações do modelo V1

  • Além da incompatibilidade de gestos, a abordagem de lip sync também tinha várias outras limitações
  • Havia uma biblioteca limitada de atores e o problema de não conseguir animar personagens imaginários

Melhorias do modelo V2

  • Foi treinado um modelo de transformador de difusão de vídeo de ponta a ponta que recebe como entrada uma única imagem, áudio e outros sinais condicionais, e gera vídeo como saída
  • A empresa acredita que essa é a melhor abordagem para capturar a complexidade e a sutileza dos movimentos e das emoções humanas
  • O modelo tem a desvantagem de ser lento

Vantagens do modelo

  • Pode lidar com vários idiomas
  • Aprendeu parte da física (ex.: brincos balançam corretamente)
  • Pode animar vários tipos de imagem (pinturas, esculturas etc.)
  • Pode lidar com canto

Desvantagens do modelo

  • Não consegue processar imagens de animais (apenas humanoides)
  • Frequentemente insere mãos no quadro (algo bem irritante e distrativo)
  • Não é robusto para cartoons
  • Pode distorcer a identidade de uma pessoa (mais perceptível em figuras públicas)

Teste o modelo

Resumo do GN⁺

  • O modelo de vídeo da Infinity AI é o primeiro caso capaz de gerar personagens realistas a partir de entrada de áudio
  • Ele supera limitações das ferramentas de IA anteriores e captura melhor movimentos e emoções humanas com um modelo de transformador de difusão de vídeo de ponta a ponta
  • Tem vantagens como suporte a vários idiomas e a diferentes tipos de imagem, mas também desvantagens, como não conseguir processar imagens de animais e inserir mãos no quadro
  • Outros projetos com funcionalidades semelhantes incluem Runway e Luma

1 comentários

 
GN⁺ 2024-09-07
Comentários do Hacker News
  • Parece uma imitação inferior do Hedra e, por enquanto, está bem atrás
  • Usei texto-para-imagem para gerar um fuzileiro espacial, e saiu um resultado impressionante mesmo sem ajustes adicionais
  • Assim que vi a opção de rosto "Gnome", soube o que precisava fazer
  • O modelo parece não gostar de Duke Nukem
  • Quando cortei a pistola dele, a situação piorou
  • As outras imagens mostram resultados um pouco melhores
  • Esta imagem é a minha favorita
  • Alguém tinha que fazer isso
  • Existem trabalhos anteriores, como o Emo da Alibaba Research, mas este demo é impressionante porque as pessoas realmente podem testá-lo
  • Tentei transformar um meme em realidade, mas a imagem original era difícil
    • Há um pequeno problema de idioma no áudio
  • Tentei forçar rumo ao vale da estranheza, mas foi bem difícil
  • Às vezes ele insere uma mão no quadro
    • Parece que foi treinado com dados italianos demais
  • Esta ferramenta é muito impressionante
    • Em áudios curtos (3–5 segundos), há um pequeno problema em que a imagem permanece completamente estática