- O Veo 2 é um modelo de geração de vídeo de ponta que oferece movimentos realistas e saída de alta qualidade de até 4K
- É possível explorar diversos estilos e encontrar um estilo próprio com amplo controle de câmera
- Redefinindo qualidade e controle
- O Veo 2 segue com fidelidade instruções simples e complexas, simulando de forma convincente a física do mundo real e diversos estilos visuais
- Realismo e fidelidade aprimorados: grande melhora em relação a outros modelos de vídeo com IA em detalhes, realismo e redução de artefatos
- Recursos avançados de movimento: graças à compreensão da física e à capacidade de seguir instruções detalhadas, representa movimentos com alta precisão
- Mais opções de controle de câmera: interpreta e gera com precisão diversos estilos de tomada, ângulos e movimentos
- Benchmark
- O Veo alcançou resultados de ponta em comparações com outros principais modelos de geração de vídeo feitas por avaliadores humanos
- Foram avaliados 1003 prompts e seus respectivos vídeos no MovieGenBench, e o Veo 2 apresentou o melhor desempenho em preferência geral e na capacidade de seguir com precisão os prompts
- Limitações
- O Veo 2 mostrou avanços notáveis na geração de vídeos realistas, dinâmicos e complexos, mas manter consistência total em cenas complexas ou com movimentos complexos ainda é um desafio
- Há planos de continuar desenvolvendo e melhorando o desempenho nessas áreas
1 comentários
Comentários do Hacker News
Um usuário compartilhou feedback sobre um vídeo gerado com o prompt "A pelican riding a bicycle along a coastal path overlooking a harbor". Das quatro versões, duas mostravam um pelicano andando de bicicleta, uma mostrava um pelicano correndo pela estrada, uma mostrava um pelicano sentado na bicicleta, e a última mostrava um pelicano usando um capacete estranho. O resultado foi melhor que o do Sora
Foi impressionante vencer o Sora Turbo por 2:1 na preferência dos usuários. Há limitações parecidas com as do Sora, mas parece imitar um pouco melhor os movimentos naturais e a física. A postagem no blog explica que ele pode escalar até resolução 4K e que a duração pode chegar a alguns minutos
Foi expressa curiosidade sobre a semelhança entre os exemplos apresentados no anúncio e os dados de treinamento. Há dúvidas sobre o quanto os detalhes do prompt são refletidos no resultado. Por exemplo, há curiosidade sobre como a descrição da presença cativante do DJ e do poder da música influencia o vídeo
O vídeo de skate parece irrealista, mas alguns vídeos parecem muito plausíveis
Foi mencionado que a página travou no Chrome do iPad
Depois do grande anúncio do Google, a OpenAI divulgou o preview do Sora e acabou ofuscando o Google, mas o Veo 2 parece mais avançado que o Sora
Um amigo que trabalha em uma emissora de TV já está usando essas ferramentas para programas de publicidade pública
Há quem ache que o Google pode dominar a transição de texto/imagem para vídeo por causa do seu acesso ao YouTube
Foi expressa confusão com o fato de a duração das amostras do Veo 2 ser de 8 segundos, a do VideoGen ser de 10 segundos e a de outros modelos ser de 5 segundos. Há dúvida se os resultados positivos do Veo 2 se devem a avaliadores que preferem vídeos mais longos
O departamento de IA do Google foi comparado a um enorme submarino nuclear, em contraste com o iate chamativo da OpenAI. Foi levantada a possibilidade de o Google ter se aproximado da AGI, com menções também à situação da Microsoft e da Amazon