VideoPoet - LLM do Google especializado em geração de vídeo zero-shot

xguru · 2023-12-22T10:15:01+09:00

Modelos recentes de geração de vídeo vêm surgindo e demonstrando uma qualidade de imagem impressionante, mas a limitação atual é a falta de capacidade de gerar movimentos amplos consistentes O VideoPoet é um LLM capaz de realizar diversas tarefas de geração de vídeo, como texto-para-vídeo, imagem-para-vídeo, estilização de vídeo, inpainting e outpainting de vídeo, além de geração de vídeo-para-áudio Diferentemente de outros modelos, ele não depende de componentes separados especializados em cada tarefa; em vez disso, integra cada função em um único LLM Converte imagens em movimento e edita vídeos para realizar inpainting ou outpainting O VideoPoet treina um modelo de linguagem autorregressivo usando vários tokenizadores para aprender as modalidades de vídeo, imagem, áudio e texto No caso de texto-para-vídeo, a saída de vídeo tem comprimento variável e pode aplicar diversos movimentos e estilos de acordo com o conteúdo do texto No caso de imagem-para-vídeo, anima a imagem de entrada com movimento junto com o prompt Na estilização de vídeo, prevê informações de Optical Flow e Depth e depois as insere no VideoPoet junto com texto adicional de entrada O VideoPoet também pode gerar áudio, permitindo que vídeo e áudio sejam gerados em um único modelo Nos resultados de avaliação da geração, em média as pessoas avaliaram que o VideoPoet segue melhor os prompts e gera movimentos mais interessantes O VideoPoet demonstra a competitividade dos LLMs na geração de movimentos interessantes e de alta qualidade em vídeos

(blog.research.google)

5 pontos por xguru 2023-12-22 | Ainda não há comentários. | Compartilhar no WhatsApp

Modelos recentes de geração de vídeo vêm surgindo e demonstrando uma qualidade de imagem impressionante, mas a limitação atual é a falta de capacidade de gerar movimentos amplos consistentes
O VideoPoet é um LLM capaz de realizar diversas tarefas de geração de vídeo, como texto-para-vídeo, imagem-para-vídeo, estilização de vídeo, inpainting e outpainting de vídeo, além de geração de vídeo-para-áudio
- Diferentemente de outros modelos, ele não depende de componentes separados especializados em cada tarefa; em vez disso, integra cada função em um único LLM
- Converte imagens em movimento e edita vídeos para realizar inpainting ou outpainting
O VideoPoet treina um modelo de linguagem autorregressivo usando vários tokenizadores para aprender as modalidades de vídeo, imagem, áudio e texto
No caso de texto-para-vídeo, a saída de vídeo tem comprimento variável e pode aplicar diversos movimentos e estilos de acordo com o conteúdo do texto
No caso de imagem-para-vídeo, anima a imagem de entrada com movimento junto com o prompt
Na estilização de vídeo, prevê informações de Optical Flow e Depth e depois as insere no VideoPoet junto com texto adicional de entrada
O VideoPoet também pode gerar áudio, permitindo que vídeo e áudio sejam gerados em um único modelo
Nos resultados de avaliação da geração, em média as pessoas avaliaram que o VideoPoet segue melhor os prompts e gera movimentos mais interessantes
O VideoPoet demonstra a competitividade dos LLMs na geração de movimentos interessantes e de alta qualidade em vídeos

VideoPoet - LLM do Google especializado em geração de vídeo zero-shot

Leituras relacionadas

Ainda não há comentários.