Apresentação da Infinity AI
- A Infinity AI é uma empresa que treinou um modelo de vídeo centrado em pessoas
- É o primeiro caso de treinamento de um transformador de difusão de vídeo acionado por entrada de áudio
- Esse modelo pode gerar personagens expressivos e realistas que realmente falam
Como usar
- Usando a ferramenta da Infinity AI, é possível inserir um roteiro e gerar um vídeo de um personagem falando
- Exemplos:
- "Um vídeo da Mona Lisa dizendo 'Do que você está rindo?'"
- "Um vídeo de um gnomo 3D no estilo Pixar, usando um chapéu vermelho, lendo a Declaração de Independência"
- "Um vídeo de Elon Musk cantando 'Fly Me To The Moon', de Frank Sinatra"
Problemas das ferramentas de IA existentes
- Os modelos de vídeo de IA generativa existentes não conseguiam fazer personagens falarem
- As empresas de avatares falantes existentes adicionavam lip sync em cima de vídeos já existentes
- Isso fazia surgir expressões faciais e gestos que não combinavam com o áudio, causando o efeito de "uncanny valley"
Limitações do modelo V1
- Além da incompatibilidade de gestos, a abordagem de lip sync também tinha várias outras limitações
- Havia uma biblioteca limitada de atores e o problema de não conseguir animar personagens imaginários
Melhorias do modelo V2
- Foi treinado um modelo de transformador de difusão de vídeo de ponta a ponta que recebe como entrada uma única imagem, áudio e outros sinais condicionais, e gera vídeo como saída
- A empresa acredita que essa é a melhor abordagem para capturar a complexidade e a sutileza dos movimentos e das emoções humanas
- O modelo tem a desvantagem de ser lento
Vantagens do modelo
- Pode lidar com vários idiomas
- Aprendeu parte da física (ex.: brincos balançam corretamente)
- Pode animar vários tipos de imagem (pinturas, esculturas etc.)
- Pode lidar com canto
Desvantagens do modelo
- Não consegue processar imagens de animais (apenas humanoides)
- Frequentemente insere mãos no quadro (algo bem irritante e distrativo)
- Não é robusto para cartoons
- Pode distorcer a identidade de uma pessoa (mais perceptível em figuras públicas)
Teste o modelo
Resumo do GN⁺
- O modelo de vídeo da Infinity AI é o primeiro caso capaz de gerar personagens realistas a partir de entrada de áudio
- Ele supera limitações das ferramentas de IA anteriores e captura melhor movimentos e emoções humanas com um modelo de transformador de difusão de vídeo de ponta a ponta
- Tem vantagens como suporte a vários idiomas e a diferentes tipos de imagem, mas também desvantagens, como não conseguir processar imagens de animais e inserir mãos no quadro
- Outros projetos com funcionalidades semelhantes incluem Runway e Luma
1 comentários
Comentários do Hacker News