Google revela Veo 3, Imagen 4 e a nova ferramenta de criação cinematográfica Flow

(blog.google)

2 pontos por GN⁺ 2025-05-21 | 1 comentários | Compartilhar no WhatsApp

O Google DeepMind revelou o Veo 3, o Imagen 4 e o Flow, expandindo de forma inovadora as ferramentas de produção de vídeo, imagem e cinema
O Veo 3 oferece recursos como geração de vídeo com áudio, simulação de física real e sincronização labial
O Imagen 4 favorece a criação de materiais finais com descrição detalhada de elementos e melhor capacidade de lidar com tipografia
O Flow é uma nova ferramenta criativa que integra vários modelos para permitir criação cinematográfica baseada em linguagem natural
Todo conteúdo gerado recebe a marca-d’água SynthID, e uma ferramenta de detecção também foi lançada para reforçar a transparência

Dê asas à sua criatividade com novos modelos e ferramentas de mídia generativa

O Google anunciou seus modelos de mídia generativa mais recentes — Veo 3, Imagen 4 — além da nova ferramenta de criação cinematográfica Flow
Esses modelos geram imagens, vídeos e música e ajudam criadores a transformar em realidade os mundos que imaginam
O Google DeepMind colaborou com produtores de vídeo, músicos e artistas no co-design dessas ferramentas e enfatiza o uso responsável de IA

Veo 3: geração avançada de vídeo com áudio

O Veo 3 gera vídeos com qualidade superior à do Veo 2 e, pela primeira vez, permite gerar vídeo já com áudio incluído, como som ambiente e falas
Com prompts baseados em texto ou imagem, é possível criar vídeos com física realista e sincronização labial precisa
Está disponível nos Estados Unidos para usuários do plano Ultra por meio do app Gemini, do Flow e do Vertex AI

Veo 2: novos recursos com base no feedback dos criadores

O Veo 2 recebeu os seguintes recursos com base no feedback dos criadores:
- Geração de vídeo com referência: permite inserir imagens de personagens, estilo, objetos etc. para gerar vídeos consistentes
- Controle de câmera: permite definir movimentos de câmera como rotação, zoom e dolly
- Outpainting: permite expandir o quadro para converter de vertical para horizontal e ampliar a cena de forma natural
- Adição e remoção de objetos: permite editar naturalmente refletindo até tamanho, sombra e interação dos objetos
Esses recursos podem ser usados no Flow e serão aplicados gradualmente à API do Vertex AI

Flow: ferramenta de criação cinematográfica com IA otimizada para o Veo

O Flow integra Veo, Imagen e Gemini para permitir configurar cenas, personagens e estilos em linguagem natural e transformá-los em vídeo
Está disponível para usuários dos planos AI Pro e Ultra nos Estados Unidos, com expansão gradual para outros países

Imagen 4: melhorias em resolução, detalhes e tipografia

O Imagen 4 oferece descrição de texturas detalhadas, suporte a estilos fotorrealistas e abstratos e saída em resolução 2K
A capacidade tipográfica também foi aprimorada, favorecendo a criação de cartões, pôsteres e quadrinhos
Pode ser usado no app Gemini, Vertex AI, Slides, Docs, Whisk e outros, e uma versão até 10 vezes mais rápida será lançada em breve

Lyria 2: geração interativa de música

Modelo incluído no Music AI Sandbox para músicos, apoiando experimentação criativa e possibilitando explorar novas músicas
Pode ser usado no YouTube Shorts, Vertex AI, MusicFX DJ e outros, e também oferece interação em tempo real via API e AI Studio

SynthID permite identificar conteúdo gerado por IA

O SynthID, iniciado em 2023, inseriu marcas-d’água em mais de 10 bilhões de conteúdos gerados por IA, incluindo imagens, vídeos, áudio e texto
Com o recém-lançado SynthID Detector, os usuários também podem verificar se algo foi gerado ou não
O Google continua promovendo design responsável de ferramentas e colaboração aberta no lançamento para que a IA generativa seja usada de forma a ajudar a criação

1 comentários

GN⁺ 2025-05-21

Comentários do Hacker News

Testando diretamente, não parece que o Imagen 4 tenha melhorado muito em relação ao Imagen 3, e a fidelidade ao prompt fica em algo como 60%
- Fica a dúvida de por que, quando dá certo, tentam só uma vez, mas, quando o modelo falha, repetem várias vezes
  Fico me perguntando se esse teste está avaliando “se o modelo consegue acertar” ou “se ele acerta com frequência”
  Acho que seria mais apropriado definir uma taxa de sucesso, ou um limite mínimo, e medir com um número fixo de tentativas
- Em "The Yarrctic Circle", o OpenAI 4o venceu, mas errou completamente em aspectos básicos: não está segurando uma cutlass, a imagem é bonita, mas a perspectiva não faz sentido, e a anatomia mostra pernas literalmente 150% mais longas do que deveriam
  Acho um recurso interessante justamente por mostrar os limites atuais desses modelos
- No vencedor de "Not the Bees", a mão ficou totalmente diferente da do motorista, então é difícil considerar que realmente passou no teste
- Fico curioso sobre como verificar se estão usando mesmo o Imagen 4 ou o Imagen 3
  No Gemini, eles não informam qual modelo está sendo usado, então fica a dúvida se é pelo Vertex AI
- Sugestão de exemplos mais difíceis para elevar o critério do teste
  - uma taça de vinho cheia até a borda
  - ponteiros de relógio marcando 10 e 2 (ou seja, um relógio que não forme um V)
  - um diagrama de montagem de uma estante IKEA de 9 etapas
  - qualquer tipo de ginástica ou acrobacia
Agora parece que as ferramentas profissionais estão bem à frente das versões open source
modelos gratuitos como wan ou hunyuan também são excelentes, mas os resultados mais recentes do Google ou da Runway parecem estar um nível acima
Principalmente as ferramentas de edição — recursos como motion, direction, cuts e inserção de áudio — estão se tornando um diferencial maior do que a capacidade pura de geração
Dá a sensação de que as grandes empresas estão mirando claramente o mercado de agências de publicidade/Hollywood
Espero que essas ferramentas virem padrão da indústria mais rápido do que eu imaginava
Ainda precisam evoluir mais uma ou duas gerações, mas o resultado já é muito bom
- Embora o open source perca em conveniência, acho que, em ambientes profissionais, uma vantagem importante é poder inserir no meio do processo exatamente os elementos desejados, com recursos como custom lora, control net etc.
  Na geração local, também dá para evitar a moderação de conteúdo de plataformas que podem ser excessivamente rígidas
  O Comfy UI é difícil para iniciantes, mas, em vez de usar ferramentas fechadas sem grande liberdade de controle, imagino que canais pequenos no YouTube e produções menores ainda escolham bastante as ferramentas open source
- A verdadeira confirmação da existência do GAI virá quando a diferença de qualidade desaparecer
  Quando isso acontecer, vai significar que será possível fazer qualquer coisa, com qualquer nível de qualidade, por código
- Há quem veja que o verdadeiro objetivo desse direcionamento para agências/Hollywood é, na prática, o mercado publicitário
- Análise do avanço da equipe do Tencent Hunyuan
  O Hunyuan Image 2.0 foi anunciado, e a qualidade e velocidade em texto-para-imagem/imagem-para-imagem são muito impressionantes
  Eles chegaram ao nível de criar um app de canvas de desenho 2D em tempo real que implementa tudo o que o Krea oferecia
  Diferentemente de antes, desta vez é closed source, o que é uma pena
  O Hunyuan 3D 2.0 também era bom, mas o 3D 2.5 ainda não foi lançado
  O Hunyuan Video não avançou em relação ao Wan, mas o Wan vem chamando atenção recentemente com o VACE, uma camada multimodal/de edição
  A comunidade do Comfy também tem produzido resultados incríveis com VACE e Wan
Filmes indie de baixo orçamento, mesmo quando pecam em direção e atuação, ainda conseguem gerar imersão, riso e emoção no público porque mantêm uma consistência geral de qualidade
Já no conteúdo em vídeo feito por IA, cada clipe isoladamente pode ser muito bem acabado, mas ainda há limites para manter a imersão ao conectar vários clipes em uma única obra
Vídeos de IA talvez funcionem em conteúdos que preservam um "fio vermelho" da história por meio da introdução ou do som, mas, por enquanto, ainda não parece algo com que Hollywood precise se preocupar
Também foi mencionado por que elementos como granulação de filme, e o formato 24p, continuam sendo escolhas artísticas
- Recomendação do canal NeuralViz no YouTube
  Ele está criando um universo cinematográfico baseado em vídeos de IA, tem 180 mil inscritos e é um programa extremamente divertido
  A ideia de que “amarrar vários clipes de vídeo de IA de forma imersiva é coisa de um futuro distante” já está sendo desmentida na prática, segundo esse ponto de vista
- O impacto do conteúdo de vídeo por IA em Hollywood seria semelhante ao impacto que a fotografia teve sobre a pintura
  Vídeos nativos de IA podem ser muito diferentes da estrutura tradicional de três atos de Hollywood, mas, se os espectadores migrarem para isso, Hollywood acabará seguindo o mesmo caminho
- Já vivemos uma era com conteúdo bom de sobra para assistir
  O verdadeiro problema não é a qualidade do conteúdo, mas a capacidade de distribuição e circulação, e a crítica é que uma das maiores distribuidoras culturais do mundo, como o Google, ignora esse ponto central que faz o meio artístico sofrer e investe energia na direção errada
Já chegamos ao ponto em que praticamente todo mundo viu ao menos um vídeo gerado por IA e achou que era real
Exemplos muito óbvios são fáceis de identificar, mas, quanto mais a gente é exposto, mais naturalmente os vídeos de IA passam a entrar no nosso cotidiano
O Google está colaborando com o estúdio de IA Primordial Soup, de Darren Aronofsky
Durante a greve da SAG-AFTRA, discutiu-se proibir o uso de IA em Hollywood, então fica a dúvida de por que esse novo estúdio não foi afetado
- Porque a Primordial Soup é uma empresa sem vínculo com o sindicato e, portanto, não está sujeita ao acordo da greve
  Assim, eles não podem contratar atores sindicalizados, mas, pela natureza da empresa, isso não parece ser um grande problema
O nível técnico deste trabalho é surpreendente, e impressiona especialmente a qualidade da sincronia entre áudio e vídeo, além de diálogos que chegam a ser tão bons quanto os de modelos de voz dedicados
Senti um pouco de uncanny valley no vídeo da coruja e no do idoso, e o vídeo de origami me pareceu levemente ameaçador e agressivo
- Dá para sentir o tamanho do avanço nos últimos 20 anos
  Antes, para produzir vídeos com essa sensação estranha, era preciso uma enorme equipe de desenvolvimento, artistas, clusters de supercomputadores e longos tempos de renderização; agora, basta um grande cluster e tempo de inferência
- Na versão com personagem de tricô mais abaixo na página, a sensação ficou muito melhor, e isso sugere que é mais fácil evitar o uncanny valley quanto mais se afasta um pouco do realismo
- O vídeo da coruja tinha aquele “brilho” típico de imagem de IA, e o vídeo do idoso foi considerado muito impressionante
- No origami, o áudio passou uma impressão ainda mais realista do que o vídeo, quase como ver um reflexo de si mesmo em algo diferente para cada pessoa
É uma tecnologia incrível, e a equipe de desenvolvimento merece admiração sincera
Ao mesmo tempo, também há bastante frustração
A esperança é que a IA automatize mais o trabalho não criativo, sem soterrar os criadores sob uma enxurrada de conteúdo gerado por IA
- A explicação é que a automação do trabalho não criativo também virá, mas exige uma precisão maior, o que a torna mais difícil e demorada
  Hoje a precisão da IA ainda está na faixa de 80%, mas preencher os 20% restantes é uma jornada realmente árdua
  Mesmo chegando rápido com um avião veloz (a tecnologia), o último trecho até o destino (o acabamento) ainda parece um congestionamento
- Quando esse assunto aparece, costuma haver muito gatekeeping, mas há quem veja de forma positiva o fato de a IA permitir que mais pessoas tenham acesso à criação
  Existe expectativa pelas novas possibilidades criativas que a IA pode abrir
- Também há a opinião de que os dados para trabalhos não criativos são mais difíceis de coletar sem o consentimento das pessoas
- Antigamente, obras de arte, especialmente digitais, não circulavam com tanta facilidade assim
  Na música acontecia algo parecido: antes da tecnologia de gravação, só a performance ao vivo era realmente autêntica
  Há quem veja a era digital atual como um período até meio anômalo na história da arte
- Diz-se que “a IA enterra os criadores sob pilhas de obras feitas por IA”, mas refinar prompts para IA também seria um ato criativo
  Já passar dezenas de horas construindo e fazendo rigging manualmente em modelos seria, por outro lado, o trabalho menos criativo
Achei interessante a lógica de que modelos de IA geram criatividade e permitem que artistas realizem sua visão criativa
Nesta nova era, o papel estaria mudando de “fazer algo” para “extrair algo”
Isso leva a reflexões sobre a essência da criação: se criar com prompt de texto é realmente “visão”, e se ainda existe um caminho artístico sem “processo”
O próprio conceito de criação parece estar sendo redefinido de forma sutil
- Há a crítica de que, nesse processo de redefinição, 2 ou 3 grandes plataformas acabam monopolizando os meios de produção
  Para elas, é uma redefinição bastante conveniente
- Para acreditar que uma visão criativa pode ser condensada em um único prompt, seria preciso supor que a própria imaginação tem limites
  A essência da arte, o resultado, o processo e a relação entre eles são temas sobre os quais nunca se discute o suficiente
  Uma comparação interessante é com confundir ponteiros em uma estrutura de dados com os próprios dados
- Prompts de texto são muito curtos, mas, se a capacidade de seguir prompts continuar melhorando, a mudança pode ser inevitavelmente enorme
  Assim como engenheiros de software realizam sua visão por meio de código-fonte, o campo criativo também pode mudar
- Há a opinião de que empresas de LLM querem tornar as pessoas dependentes de seus serviços para intermediar e capturar lucro em toda atividade econômica
- Ópera/teatro/arte manual também passaram por processos parecidos, e no fim as pessoas migraram cada vez mais para formas mais fáceis e mais convenientes de consumir
  (música digital/TV/arte digital)
  Restaram apenas pequenos grupos que tratam os métodos anteriores como arte elevada
Fico curioso se alguém realmente já usou o Veo3
Os vídeos de demonstração são impressionantes, mas, quando usei o Sora, a experiência prática foi muito frustrante, com muitos acertos e erros

Google revela Veo 3, Imagen 4 e a nova ferramenta de criação cinematográfica Flow

Dê asas à sua criatividade com novos modelos e ferramentas de mídia generativa

Veo 3: geração avançada de vídeo com áudio

Veo 2: novos recursos com base no feedback dos criadores

Flow: ferramenta de criação cinematográfica com IA otimizada para o Veo

Imagen 4: melhorias em resolução, detalhes e tipografia

Lyria 2: geração interativa de música

SynthID permite identificar conteúdo gerado por IA

Leituras relacionadas

1 comentários

Comentários do Hacker News