2 pontos por GN⁺ 2025-05-21 | 1 comentários | Compartilhar no WhatsApp
  • O Google DeepMind revelou o Veo 3, o Imagen 4 e o Flow, expandindo de forma inovadora as ferramentas de produção de vídeo, imagem e cinema
  • O Veo 3 oferece recursos como geração de vídeo com áudio, simulação de física real e sincronização labial
  • O Imagen 4 favorece a criação de materiais finais com descrição detalhada de elementos e melhor capacidade de lidar com tipografia
  • O Flow é uma nova ferramenta criativa que integra vários modelos para permitir criação cinematográfica baseada em linguagem natural
  • Todo conteúdo gerado recebe a marca-d’água SynthID, e uma ferramenta de detecção também foi lançada para reforçar a transparência

Dê asas à sua criatividade com novos modelos e ferramentas de mídia generativa

  • O Google anunciou seus modelos de mídia generativa mais recentes — Veo 3, Imagen 4 — além da nova ferramenta de criação cinematográfica Flow
  • Esses modelos geram imagens, vídeos e música e ajudam criadores a transformar em realidade os mundos que imaginam
  • O Google DeepMind colaborou com produtores de vídeo, músicos e artistas no co-design dessas ferramentas e enfatiza o uso responsável de IA

Veo 3: geração avançada de vídeo com áudio

  • O Veo 3 gera vídeos com qualidade superior à do Veo 2 e, pela primeira vez, permite gerar vídeo já com áudio incluído, como som ambiente e falas
  • Com prompts baseados em texto ou imagem, é possível criar vídeos com física realista e sincronização labial precisa
  • Está disponível nos Estados Unidos para usuários do plano Ultra por meio do app Gemini, do Flow e do Vertex AI

Veo 2: novos recursos com base no feedback dos criadores

  • O Veo 2 recebeu os seguintes recursos com base no feedback dos criadores:

    • Geração de vídeo com referência: permite inserir imagens de personagens, estilo, objetos etc. para gerar vídeos consistentes
    • Controle de câmera: permite definir movimentos de câmera como rotação, zoom e dolly
    • Outpainting: permite expandir o quadro para converter de vertical para horizontal e ampliar a cena de forma natural
    • Adição e remoção de objetos: permite editar naturalmente refletindo até tamanho, sombra e interação dos objetos
  • Esses recursos podem ser usados no Flow e serão aplicados gradualmente à API do Vertex AI

Flow: ferramenta de criação cinematográfica com IA otimizada para o Veo

  • O Flow integra Veo, Imagen e Gemini para permitir configurar cenas, personagens e estilos em linguagem natural e transformá-los em vídeo
  • Está disponível para usuários dos planos AI Pro e Ultra nos Estados Unidos, com expansão gradual para outros países

Imagen 4: melhorias em resolução, detalhes e tipografia

  • O Imagen 4 oferece descrição de texturas detalhadas, suporte a estilos fotorrealistas e abstratos e saída em resolução 2K
  • A capacidade tipográfica também foi aprimorada, favorecendo a criação de cartões, pôsteres e quadrinhos
  • Pode ser usado no app Gemini, Vertex AI, Slides, Docs, Whisk e outros, e uma versão até 10 vezes mais rápida será lançada em breve

Lyria 2: geração interativa de música

  • Modelo incluído no Music AI Sandbox para músicos, apoiando experimentação criativa e possibilitando explorar novas músicas
  • Pode ser usado no YouTube Shorts, Vertex AI, MusicFX DJ e outros, e também oferece interação em tempo real via API e AI Studio

SynthID permite identificar conteúdo gerado por IA

  • O SynthID, iniciado em 2023, inseriu marcas-d’água em mais de 10 bilhões de conteúdos gerados por IA, incluindo imagens, vídeos, áudio e texto
  • Com o recém-lançado SynthID Detector, os usuários também podem verificar se algo foi gerado ou não
  • O Google continua promovendo design responsável de ferramentas e colaboração aberta no lançamento para que a IA generativa seja usada de forma a ajudar a criação

1 comentários

 
GN⁺ 2025-05-21
Comentários do Hacker News
  • Testando diretamente, não parece que o Imagen 4 tenha melhorado muito em relação ao Imagen 3, e a fidelidade ao prompt fica em algo como 60%

    • Fica a dúvida de por que, quando dá certo, tentam só uma vez, mas, quando o modelo falha, repetem várias vezes
      Fico me perguntando se esse teste está avaliando “se o modelo consegue acertar” ou “se ele acerta com frequência”
      Acho que seria mais apropriado definir uma taxa de sucesso, ou um limite mínimo, e medir com um número fixo de tentativas
    • Em "The Yarrctic Circle", o OpenAI 4o venceu, mas errou completamente em aspectos básicos: não está segurando uma cutlass, a imagem é bonita, mas a perspectiva não faz sentido, e a anatomia mostra pernas literalmente 150% mais longas do que deveriam
      Acho um recurso interessante justamente por mostrar os limites atuais desses modelos
    • No vencedor de "Not the Bees", a mão ficou totalmente diferente da do motorista, então é difícil considerar que realmente passou no teste
    • Fico curioso sobre como verificar se estão usando mesmo o Imagen 4 ou o Imagen 3
      No Gemini, eles não informam qual modelo está sendo usado, então fica a dúvida se é pelo Vertex AI
    • Sugestão de exemplos mais difíceis para elevar o critério do teste
      • uma taça de vinho cheia até a borda
      • ponteiros de relógio marcando 10 e 2 (ou seja, um relógio que não forme um V)
      • um diagrama de montagem de uma estante IKEA de 9 etapas
      • qualquer tipo de ginástica ou acrobacia
  • Agora parece que as ferramentas profissionais estão bem à frente das versões open source
    modelos gratuitos como wan ou hunyuan também são excelentes, mas os resultados mais recentes do Google ou da Runway parecem estar um nível acima
    Principalmente as ferramentas de edição — recursos como motion, direction, cuts e inserção de áudio — estão se tornando um diferencial maior do que a capacidade pura de geração
    Dá a sensação de que as grandes empresas estão mirando claramente o mercado de agências de publicidade/Hollywood
    Espero que essas ferramentas virem padrão da indústria mais rápido do que eu imaginava
    Ainda precisam evoluir mais uma ou duas gerações, mas o resultado já é muito bom

    • Embora o open source perca em conveniência, acho que, em ambientes profissionais, uma vantagem importante é poder inserir no meio do processo exatamente os elementos desejados, com recursos como custom lora, control net etc.
      Na geração local, também dá para evitar a moderação de conteúdo de plataformas que podem ser excessivamente rígidas
      O Comfy UI é difícil para iniciantes, mas, em vez de usar ferramentas fechadas sem grande liberdade de controle, imagino que canais pequenos no YouTube e produções menores ainda escolham bastante as ferramentas open source
    • A verdadeira confirmação da existência do GAI virá quando a diferença de qualidade desaparecer
      Quando isso acontecer, vai significar que será possível fazer qualquer coisa, com qualquer nível de qualidade, por código
    • Há quem veja que o verdadeiro objetivo desse direcionamento para agências/Hollywood é, na prática, o mercado publicitário
    • Análise do avanço da equipe do Tencent Hunyuan
      O Hunyuan Image 2.0 foi anunciado, e a qualidade e velocidade em texto-para-imagem/imagem-para-imagem são muito impressionantes
      Eles chegaram ao nível de criar um app de canvas de desenho 2D em tempo real que implementa tudo o que o Krea oferecia
      Diferentemente de antes, desta vez é closed source, o que é uma pena
      O Hunyuan 3D 2.0 também era bom, mas o 3D 2.5 ainda não foi lançado
      O Hunyuan Video não avançou em relação ao Wan, mas o Wan vem chamando atenção recentemente com o VACE, uma camada multimodal/de edição
      A comunidade do Comfy também tem produzido resultados incríveis com VACE e Wan
  • Filmes indie de baixo orçamento, mesmo quando pecam em direção e atuação, ainda conseguem gerar imersão, riso e emoção no público porque mantêm uma consistência geral de qualidade
    Já no conteúdo em vídeo feito por IA, cada clipe isoladamente pode ser muito bem acabado, mas ainda há limites para manter a imersão ao conectar vários clipes em uma única obra
    Vídeos de IA talvez funcionem em conteúdos que preservam um "fio vermelho" da história por meio da introdução ou do som, mas, por enquanto, ainda não parece algo com que Hollywood precise se preocupar
    Também foi mencionado por que elementos como granulação de filme, e o formato 24p, continuam sendo escolhas artísticas

    • Recomendação do canal NeuralViz no YouTube
      Ele está criando um universo cinematográfico baseado em vídeos de IA, tem 180 mil inscritos e é um programa extremamente divertido
      A ideia de que “amarrar vários clipes de vídeo de IA de forma imersiva é coisa de um futuro distante” já está sendo desmentida na prática, segundo esse ponto de vista
    • O impacto do conteúdo de vídeo por IA em Hollywood seria semelhante ao impacto que a fotografia teve sobre a pintura
      Vídeos nativos de IA podem ser muito diferentes da estrutura tradicional de três atos de Hollywood, mas, se os espectadores migrarem para isso, Hollywood acabará seguindo o mesmo caminho
    • Já vivemos uma era com conteúdo bom de sobra para assistir
      O verdadeiro problema não é a qualidade do conteúdo, mas a capacidade de distribuição e circulação, e a crítica é que uma das maiores distribuidoras culturais do mundo, como o Google, ignora esse ponto central que faz o meio artístico sofrer e investe energia na direção errada
  • Já chegamos ao ponto em que praticamente todo mundo viu ao menos um vídeo gerado por IA e achou que era real
    Exemplos muito óbvios são fáceis de identificar, mas, quanto mais a gente é exposto, mais naturalmente os vídeos de IA passam a entrar no nosso cotidiano

  • O Google está colaborando com o estúdio de IA Primordial Soup, de Darren Aronofsky
    Durante a greve da SAG-AFTRA, discutiu-se proibir o uso de IA em Hollywood, então fica a dúvida de por que esse novo estúdio não foi afetado

    • Porque a Primordial Soup é uma empresa sem vínculo com o sindicato e, portanto, não está sujeita ao acordo da greve
      Assim, eles não podem contratar atores sindicalizados, mas, pela natureza da empresa, isso não parece ser um grande problema
  • O nível técnico deste trabalho é surpreendente, e impressiona especialmente a qualidade da sincronia entre áudio e vídeo, além de diálogos que chegam a ser tão bons quanto os de modelos de voz dedicados

  • Senti um pouco de uncanny valley no vídeo da coruja e no do idoso, e o vídeo de origami me pareceu levemente ameaçador e agressivo

    • Dá para sentir o tamanho do avanço nos últimos 20 anos
      Antes, para produzir vídeos com essa sensação estranha, era preciso uma enorme equipe de desenvolvimento, artistas, clusters de supercomputadores e longos tempos de renderização; agora, basta um grande cluster e tempo de inferência
    • Na versão com personagem de tricô mais abaixo na página, a sensação ficou muito melhor, e isso sugere que é mais fácil evitar o uncanny valley quanto mais se afasta um pouco do realismo
    • O vídeo da coruja tinha aquele “brilho” típico de imagem de IA, e o vídeo do idoso foi considerado muito impressionante
    • No origami, o áudio passou uma impressão ainda mais realista do que o vídeo, quase como ver um reflexo de si mesmo em algo diferente para cada pessoa
  • É uma tecnologia incrível, e a equipe de desenvolvimento merece admiração sincera
    Ao mesmo tempo, também há bastante frustração
    A esperança é que a IA automatize mais o trabalho não criativo, sem soterrar os criadores sob uma enxurrada de conteúdo gerado por IA

    • A explicação é que a automação do trabalho não criativo também virá, mas exige uma precisão maior, o que a torna mais difícil e demorada
      Hoje a precisão da IA ainda está na faixa de 80%, mas preencher os 20% restantes é uma jornada realmente árdua
      Mesmo chegando rápido com um avião veloz (a tecnologia), o último trecho até o destino (o acabamento) ainda parece um congestionamento
    • Quando esse assunto aparece, costuma haver muito gatekeeping, mas há quem veja de forma positiva o fato de a IA permitir que mais pessoas tenham acesso à criação
      Existe expectativa pelas novas possibilidades criativas que a IA pode abrir
    • Também há a opinião de que os dados para trabalhos não criativos são mais difíceis de coletar sem o consentimento das pessoas
    • Antigamente, obras de arte, especialmente digitais, não circulavam com tanta facilidade assim
      Na música acontecia algo parecido: antes da tecnologia de gravação, só a performance ao vivo era realmente autêntica
      Há quem veja a era digital atual como um período até meio anômalo na história da arte
    • Diz-se que “a IA enterra os criadores sob pilhas de obras feitas por IA”, mas refinar prompts para IA também seria um ato criativo
      Já passar dezenas de horas construindo e fazendo rigging manualmente em modelos seria, por outro lado, o trabalho menos criativo
  • Achei interessante a lógica de que modelos de IA geram criatividade e permitem que artistas realizem sua visão criativa
    Nesta nova era, o papel estaria mudando de “fazer algo” para “extrair algo”
    Isso leva a reflexões sobre a essência da criação: se criar com prompt de texto é realmente “visão”, e se ainda existe um caminho artístico sem “processo”
    O próprio conceito de criação parece estar sendo redefinido de forma sutil

    • Há a crítica de que, nesse processo de redefinição, 2 ou 3 grandes plataformas acabam monopolizando os meios de produção
      Para elas, é uma redefinição bastante conveniente
    • Para acreditar que uma visão criativa pode ser condensada em um único prompt, seria preciso supor que a própria imaginação tem limites
      A essência da arte, o resultado, o processo e a relação entre eles são temas sobre os quais nunca se discute o suficiente
      Uma comparação interessante é com confundir ponteiros em uma estrutura de dados com os próprios dados
    • Prompts de texto são muito curtos, mas, se a capacidade de seguir prompts continuar melhorando, a mudança pode ser inevitavelmente enorme
      Assim como engenheiros de software realizam sua visão por meio de código-fonte, o campo criativo também pode mudar
    • Há a opinião de que empresas de LLM querem tornar as pessoas dependentes de seus serviços para intermediar e capturar lucro em toda atividade econômica
    • Ópera/teatro/arte manual também passaram por processos parecidos, e no fim as pessoas migraram cada vez mais para formas mais fáceis e mais convenientes de consumir
      (música digital/TV/arte digital)
      Restaram apenas pequenos grupos que tratam os métodos anteriores como arte elevada
  • Fico curioso se alguém realmente já usou o Veo3
    Os vídeos de demonstração são impressionantes, mas, quando usei o Sora, a experiência prática foi muito frustrante, com muitos acertos e erros