Google DeepMind Veo - o modelo de vídeo generativo mais poderoso

(deepmind.google)

11 pontos por GN⁺ 2024-05-15 | 2 comentários | Compartilhar no WhatsApp

Veo é, até agora, o modelo de geração de vídeo mais poderoso.
Consegue gerar vídeos em alta qualidade, com resolução de 1080p, por mais de 1 minuto.
Suporta diversos estilos cinematográficos e visuais.
Capta com precisão as nuances e o tom dos prompts, oferecendo controle criativo.
Entende efeitos cinematográficos como time-lapse ou tomadas aéreas de paisagens.
Ajuda a tornar a produção de vídeo acessível para todos.
Abre novas possibilidades para cineastas experientes, criadores, educadores e outros públicos.
Alguns recursos serão disponibilizados por meio de uma nova ferramenta experimental chamada VideoFX.
No futuro, a empresa pretende aplicar os recursos do Veo ao YouTube Shorts e a outros produtos.

Compreensão mais profunda de linguagem e visão

É preciso interpretar com precisão prompts em texto e combiná-los com referências visuais relevantes.
Com uma compreensão avançada de linguagem natural e significado visual, gera vídeos que seguem fielmente os prompts.
Renderiza detalhes com sofisticação dentro de cenas complexas.

Recursos de controle para produção cinematográfica

Se forem fornecidos um vídeo de entrada e comandos de edição, o Veo os aplica para gerar um novo vídeo editado.
Suporta edição com máscara, permitindo alterar áreas específicas do vídeo.
Se imagem e prompt de texto forem fornecidos juntos, gera um vídeo que segue aquele estilo e aquelas instruções.
Pode gerar e estender clipes de vídeo com mais de 60 segundos por meio de um único prompt ou de uma sequência de prompts.

Manutenção da consistência entre quadros do vídeo

Manter a consistência visual em modelos de geração de vídeo é um desafio.
O mais recente transformador de difusão latente do Veo reduz a ocorrência dessas inconsistências.
Mantém personagens, objetos e estilos de forma realista.

Baseado em anos de pesquisa em geração de vídeo

O Veo se baseia em pesquisas como Generative Query Network (GQN), DVD-GAN, Imagen-Video, Phenaki, WALT, VideoPoet e Lumiere.
Utiliza a arquitetura Transformer e o Gemini.
Adiciona mais detalhes às legendas de cada vídeo para compreender e seguir os prompts com mais precisão.
Melhora o desempenho usando representações de vídeo comprimidas e de alta qualidade.

Projeto responsável

É importante que o Veo seja introduzido no mundo de forma responsável.
Os vídeos gerados pelo Veo recebem marca d’água com o uso do SynthID.
Filtros de segurança e processos de checagem de memória mitigam riscos de privacidade, direitos autorais e vieses.
O futuro do Veo é desenhado por meio de colaboração com criadores e cineastas importantes.
Com o feedback deles, a tecnologia de vídeo generativo é aprimorada para beneficiar uma comunidade criativa mais ampla.

Opinião do GN⁺

Inovação do Veo: o Veo é um modelo de geração de vídeo de alta qualidade que abre novas possibilidades para criadores.
Uso educacional: pode ser uma grande ajuda para educadores transmitirem conhecimento por meio de vídeo.
Adoção responsável da tecnologia: o Veo pode ser usado de forma responsável por meio de marca d’água e filtros de segurança.
Produtos concorrentes: é necessário compará-lo com outros modelos de geração de vídeo que oferecem recursos semelhantes.
Pontos de atenção na adoção: ao adotar o Veo, é preciso considerar cuidadosamente questões de privacidade e direitos autorais.

2 comentários

xguru 2024-05-15

Realmente, se não existisse o Sora, seria excelente... mas a comparação é inevitável. Como o Google foi acabar assim? buá

GN⁺ 2024-05-15

Opiniões no Hacker News

Resumo dos comentários do Hacker News

Limitações do ponto de vista da produção cinematográfica
- Opinião: Com a tecnologia atual, isso não deve ter grande impacto na produção de filmes. É necessário um recurso que permita ao diretor dar instruções específicas. No momento, está mais no nível de conteúdo B-roll.
Tecnologia SynthID do Google
- Opinião: O Google usa a tecnologia SynthID para adicionar marca-d'água a vídeos gerados por IA. Essa tecnologia se aplica não só a vídeos, mas também a imagens, texto e áudio.
Comparação com o Sora
- Opinião: O Sora é mais impressionante. Ele lida bem com clipes longos e movimentos rápidos. Já a demo atual contém apenas clipes curtos e movimentos lentos. A única parte realmente comparável é o vídeo cyberpunk, mas falta consistência.
Vídeo de exemplo de 60 segundos
- Opinião: Foi fornecido um link para um vídeo de exemplo de 60 segundos. Link do YouTube
Ausência de vídeos com humanos
- Opinião: A ausência de vídeos com humanos pode indicar que a tecnologia ainda tem dificuldade para gerar pessoas.
Mudança no tempo de corte dos filmes
- Opinião: Segundo uma matéria da Wired de 2014, o tempo médio de plano nos filmes em inglês caiu de 12 segundos nos anos 1930 para 2,5 segundos hoje. Essa tecnologia pode acabar tendo um impacto maior no mundo real. Link da matéria da Wired
Impressão da demo em vídeo
- Opinião: A demo em vídeo é interessante. No entanto, em comparação com a demo do Sora, não impressiona tanto. Para algo anunciado pelo Google, ficou abaixo das expectativas. O Sora ainda não foi lançado, e o Veo talvez ainda tenha mais a mostrar.
Como manter a consistência
- Opinião: Há curiosidade sobre como a tecnologia mais recente do Veo mantém a consistência. Fica a dúvida se existe algum tipo de memória temporal entre os frames.
Semelhança com Westworld
- Opinião: A miniatura do primeiro prompt de exemplo lembra o androide Gunslinger de Westworld (1973). Na época, foi um dos primeiros casos de uso de computação gráfica. Link do YouTube
Confusão com o segmento de Donald Glover
- Opinião: O segmento com Donald Glover foi confuso. Foram mostrados apenas alguns clipes curtos, então quem esperava um curta-metragem acabou se decepcionando.