5 pontos por xguru 2023-12-22 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Modelos recentes de geração de vídeo vêm surgindo e demonstrando uma qualidade de imagem impressionante, mas a limitação atual é a falta de capacidade de gerar movimentos amplos consistentes
  • O VideoPoet é um LLM capaz de realizar diversas tarefas de geração de vídeo, como texto-para-vídeo, imagem-para-vídeo, estilização de vídeo, inpainting e outpainting de vídeo, além de geração de vídeo-para-áudio
    • Diferentemente de outros modelos, ele não depende de componentes separados especializados em cada tarefa; em vez disso, integra cada função em um único LLM
    • Converte imagens em movimento e edita vídeos para realizar inpainting ou outpainting
  • O VideoPoet treina um modelo de linguagem autorregressivo usando vários tokenizadores para aprender as modalidades de vídeo, imagem, áudio e texto
  • No caso de texto-para-vídeo, a saída de vídeo tem comprimento variável e pode aplicar diversos movimentos e estilos de acordo com o conteúdo do texto
  • No caso de imagem-para-vídeo, anima a imagem de entrada com movimento junto com o prompt
  • Na estilização de vídeo, prevê informações de Optical Flow e Depth e depois as insere no VideoPoet junto com texto adicional de entrada
  • O VideoPoet também pode gerar áudio, permitindo que vídeo e áudio sejam gerados em um único modelo
  • Nos resultados de avaliação da geração, em média as pessoas avaliaram que o VideoPoet segue melhor os prompts e gera movimentos mais interessantes
  • O VideoPoet demonstra a competitividade dos LLMs na geração de movimentos interessantes e de alta qualidade em vídeos

Ainda não há comentários.

Ainda não há comentários.