- O Google DeepMind revelou o Veo 3, o Imagen 4 e o Flow, expandindo de forma inovadora as ferramentas de produção de vídeo, imagem e cinema
- O Veo 3 oferece recursos como geração de vídeo com áudio, simulação de física real e sincronização labial
- O Imagen 4 favorece a criação de materiais finais com descrição detalhada de elementos e melhor capacidade de lidar com tipografia
- O Flow é uma nova ferramenta criativa que integra vários modelos para permitir criação cinematográfica baseada em linguagem natural
- Todo conteúdo gerado recebe a marca-d’água SynthID, e uma ferramenta de detecção também foi lançada para reforçar a transparência
Dê asas à sua criatividade com novos modelos e ferramentas de mídia generativa
- O Google anunciou seus modelos de mídia generativa mais recentes — Veo 3, Imagen 4 — além da nova ferramenta de criação cinematográfica Flow
- Esses modelos geram imagens, vídeos e música e ajudam criadores a transformar em realidade os mundos que imaginam
- O Google DeepMind colaborou com produtores de vídeo, músicos e artistas no co-design dessas ferramentas e enfatiza o uso responsável de IA
Veo 3: geração avançada de vídeo com áudio
- O Veo 3 gera vídeos com qualidade superior à do Veo 2 e, pela primeira vez, permite gerar vídeo já com áudio incluído, como som ambiente e falas
- Com prompts baseados em texto ou imagem, é possível criar vídeos com física realista e sincronização labial precisa
- Está disponível nos Estados Unidos para usuários do plano Ultra por meio do app Gemini, do Flow e do Vertex AI
Veo 2: novos recursos com base no feedback dos criadores
-
O Veo 2 recebeu os seguintes recursos com base no feedback dos criadores:
- Geração de vídeo com referência: permite inserir imagens de personagens, estilo, objetos etc. para gerar vídeos consistentes
- Controle de câmera: permite definir movimentos de câmera como rotação, zoom e dolly
- Outpainting: permite expandir o quadro para converter de vertical para horizontal e ampliar a cena de forma natural
- Adição e remoção de objetos: permite editar naturalmente refletindo até tamanho, sombra e interação dos objetos
-
Esses recursos podem ser usados no Flow e serão aplicados gradualmente à API do Vertex AI
Flow: ferramenta de criação cinematográfica com IA otimizada para o Veo
- O Flow integra Veo, Imagen e Gemini para permitir configurar cenas, personagens e estilos em linguagem natural e transformá-los em vídeo
- Está disponível para usuários dos planos AI Pro e Ultra nos Estados Unidos, com expansão gradual para outros países
Imagen 4: melhorias em resolução, detalhes e tipografia
- O Imagen 4 oferece descrição de texturas detalhadas, suporte a estilos fotorrealistas e abstratos e saída em resolução 2K
- A capacidade tipográfica também foi aprimorada, favorecendo a criação de cartões, pôsteres e quadrinhos
- Pode ser usado no app Gemini, Vertex AI, Slides, Docs, Whisk e outros, e uma versão até 10 vezes mais rápida será lançada em breve
Lyria 2: geração interativa de música
- Modelo incluído no Music AI Sandbox para músicos, apoiando experimentação criativa e possibilitando explorar novas músicas
- Pode ser usado no YouTube Shorts, Vertex AI, MusicFX DJ e outros, e também oferece interação em tempo real via API e AI Studio
SynthID permite identificar conteúdo gerado por IA
- O SynthID, iniciado em 2023, inseriu marcas-d’água em mais de 10 bilhões de conteúdos gerados por IA, incluindo imagens, vídeos, áudio e texto
- Com o recém-lançado SynthID Detector, os usuários também podem verificar se algo foi gerado ou não
- O Google continua promovendo design responsável de ferramentas e colaboração aberta no lançamento para que a IA generativa seja usada de forma a ajudar a criação
1 comentários
Comentários do Hacker News
Testando diretamente, não parece que o Imagen 4 tenha melhorado muito em relação ao Imagen 3, e a fidelidade ao prompt fica em algo como 60%
Fico me perguntando se esse teste está avaliando “se o modelo consegue acertar” ou “se ele acerta com frequência”
Acho que seria mais apropriado definir uma taxa de sucesso, ou um limite mínimo, e medir com um número fixo de tentativas
Acho um recurso interessante justamente por mostrar os limites atuais desses modelos
No Gemini, eles não informam qual modelo está sendo usado, então fica a dúvida se é pelo Vertex AI
Agora parece que as ferramentas profissionais estão bem à frente das versões open source
modelos gratuitos como wan ou hunyuan também são excelentes, mas os resultados mais recentes do Google ou da Runway parecem estar um nível acima
Principalmente as ferramentas de edição — recursos como motion, direction, cuts e inserção de áudio — estão se tornando um diferencial maior do que a capacidade pura de geração
Dá a sensação de que as grandes empresas estão mirando claramente o mercado de agências de publicidade/Hollywood
Espero que essas ferramentas virem padrão da indústria mais rápido do que eu imaginava
Ainda precisam evoluir mais uma ou duas gerações, mas o resultado já é muito bom
Na geração local, também dá para evitar a moderação de conteúdo de plataformas que podem ser excessivamente rígidas
O Comfy UI é difícil para iniciantes, mas, em vez de usar ferramentas fechadas sem grande liberdade de controle, imagino que canais pequenos no YouTube e produções menores ainda escolham bastante as ferramentas open source
Quando isso acontecer, vai significar que será possível fazer qualquer coisa, com qualquer nível de qualidade, por código
O Hunyuan Image 2.0 foi anunciado, e a qualidade e velocidade em texto-para-imagem/imagem-para-imagem são muito impressionantes
Eles chegaram ao nível de criar um app de canvas de desenho 2D em tempo real que implementa tudo o que o Krea oferecia
Diferentemente de antes, desta vez é closed source, o que é uma pena
O Hunyuan 3D 2.0 também era bom, mas o 3D 2.5 ainda não foi lançado
O Hunyuan Video não avançou em relação ao Wan, mas o Wan vem chamando atenção recentemente com o VACE, uma camada multimodal/de edição
A comunidade do Comfy também tem produzido resultados incríveis com VACE e Wan
Filmes indie de baixo orçamento, mesmo quando pecam em direção e atuação, ainda conseguem gerar imersão, riso e emoção no público porque mantêm uma consistência geral de qualidade
Já no conteúdo em vídeo feito por IA, cada clipe isoladamente pode ser muito bem acabado, mas ainda há limites para manter a imersão ao conectar vários clipes em uma única obra
Vídeos de IA talvez funcionem em conteúdos que preservam um "fio vermelho" da história por meio da introdução ou do som, mas, por enquanto, ainda não parece algo com que Hollywood precise se preocupar
Também foi mencionado por que elementos como granulação de filme, e o formato 24p, continuam sendo escolhas artísticas
Ele está criando um universo cinematográfico baseado em vídeos de IA, tem 180 mil inscritos e é um programa extremamente divertido
A ideia de que “amarrar vários clipes de vídeo de IA de forma imersiva é coisa de um futuro distante” já está sendo desmentida na prática, segundo esse ponto de vista
Vídeos nativos de IA podem ser muito diferentes da estrutura tradicional de três atos de Hollywood, mas, se os espectadores migrarem para isso, Hollywood acabará seguindo o mesmo caminho
O verdadeiro problema não é a qualidade do conteúdo, mas a capacidade de distribuição e circulação, e a crítica é que uma das maiores distribuidoras culturais do mundo, como o Google, ignora esse ponto central que faz o meio artístico sofrer e investe energia na direção errada
Já chegamos ao ponto em que praticamente todo mundo viu ao menos um vídeo gerado por IA e achou que era real
Exemplos muito óbvios são fáceis de identificar, mas, quanto mais a gente é exposto, mais naturalmente os vídeos de IA passam a entrar no nosso cotidiano
O Google está colaborando com o estúdio de IA Primordial Soup, de Darren Aronofsky
Durante a greve da SAG-AFTRA, discutiu-se proibir o uso de IA em Hollywood, então fica a dúvida de por que esse novo estúdio não foi afetado
Assim, eles não podem contratar atores sindicalizados, mas, pela natureza da empresa, isso não parece ser um grande problema
O nível técnico deste trabalho é surpreendente, e impressiona especialmente a qualidade da sincronia entre áudio e vídeo, além de diálogos que chegam a ser tão bons quanto os de modelos de voz dedicados
Senti um pouco de uncanny valley no vídeo da coruja e no do idoso, e o vídeo de origami me pareceu levemente ameaçador e agressivo
Antes, para produzir vídeos com essa sensação estranha, era preciso uma enorme equipe de desenvolvimento, artistas, clusters de supercomputadores e longos tempos de renderização; agora, basta um grande cluster e tempo de inferência
É uma tecnologia incrível, e a equipe de desenvolvimento merece admiração sincera
Ao mesmo tempo, também há bastante frustração
A esperança é que a IA automatize mais o trabalho não criativo, sem soterrar os criadores sob uma enxurrada de conteúdo gerado por IA
Hoje a precisão da IA ainda está na faixa de 80%, mas preencher os 20% restantes é uma jornada realmente árdua
Mesmo chegando rápido com um avião veloz (a tecnologia), o último trecho até o destino (o acabamento) ainda parece um congestionamento
Existe expectativa pelas novas possibilidades criativas que a IA pode abrir
Na música acontecia algo parecido: antes da tecnologia de gravação, só a performance ao vivo era realmente autêntica
Há quem veja a era digital atual como um período até meio anômalo na história da arte
Já passar dezenas de horas construindo e fazendo rigging manualmente em modelos seria, por outro lado, o trabalho menos criativo
Achei interessante a lógica de que modelos de IA geram criatividade e permitem que artistas realizem sua visão criativa
Nesta nova era, o papel estaria mudando de “fazer algo” para “extrair algo”
Isso leva a reflexões sobre a essência da criação: se criar com prompt de texto é realmente “visão”, e se ainda existe um caminho artístico sem “processo”
O próprio conceito de criação parece estar sendo redefinido de forma sutil
Para elas, é uma redefinição bastante conveniente
A essência da arte, o resultado, o processo e a relação entre eles são temas sobre os quais nunca se discute o suficiente
Uma comparação interessante é com confundir ponteiros em uma estrutura de dados com os próprios dados
Assim como engenheiros de software realizam sua visão por meio de código-fonte, o campo criativo também pode mudar
(música digital/TV/arte digital)
Restaram apenas pequenos grupos que tratam os métodos anteriores como arte elevada
Fico curioso se alguém realmente já usou o Veo3
Os vídeos de demonstração são impressionantes, mas, quando usei o Sora, a experiência prática foi muito frustrante, com muitos acertos e erros