- Modelos recentes de geração de vídeo vêm surgindo e demonstrando uma qualidade de imagem impressionante, mas a limitação atual é a falta de capacidade de gerar movimentos amplos consistentes
- O VideoPoet é um LLM capaz de realizar diversas tarefas de geração de vídeo, como texto-para-vídeo, imagem-para-vídeo, estilização de vídeo, inpainting e outpainting de vídeo, além de geração de vídeo-para-áudio
- Diferentemente de outros modelos, ele não depende de componentes separados especializados em cada tarefa; em vez disso, integra cada função em um único LLM
- Converte imagens em movimento e edita vídeos para realizar inpainting ou outpainting
- O VideoPoet treina um modelo de linguagem autorregressivo usando vários tokenizadores para aprender as modalidades de vídeo, imagem, áudio e texto
- No caso de texto-para-vídeo, a saída de vídeo tem comprimento variável e pode aplicar diversos movimentos e estilos de acordo com o conteúdo do texto
- No caso de imagem-para-vídeo, anima a imagem de entrada com movimento junto com o prompt
- Na estilização de vídeo, prevê informações de Optical Flow e Depth e depois as insere no VideoPoet junto com texto adicional de entrada
- O VideoPoet também pode gerar áudio, permitindo que vídeo e áudio sejam gerados em um único modelo
- Nos resultados de avaliação da geração, em média as pessoas avaliaram que o VideoPoet segue melhor os prompts e gera movimentos mais interessantes
- O VideoPoet demonstra a competitividade dos LLMs na geração de movimentos interessantes e de alta qualidade em vídeos
Ainda não há comentários.