4 pontos por GN⁺ 2025-06-14 | 1 comentários | Compartilhar no WhatsApp
  • Um modelo de geração de vídeo multishot baseado em texto e imagem, com desempenho mais preciso e flexível do que os modelos anteriores em compreensão semântica e interpretação de prompts
  • Além da alta resolução de 1080p, entrega resultados com transições suaves entre cenas, detalhes ricos e aparência cinematográfica
  • Melhora geral de desempenho com fine-tuning detalhado e um mecanismo de recompensa RLHF especializado em vídeo
  • Com base em descrições em texto ou imagens, é capaz de produzir conteúdo visual dinâmico e imersivo que atende aos requisitos solicitados
  • Com uma arquitetura eficiente e um novo paradigma de treinamento, oferece suporte tanto à geração multishot quanto a tarefas de texto-para-vídeo e imagem-para-vídeo

Introdução ao Seedance 1.0

  • Recentemente, a tecnologia de geração de vídeo vem avançando rapidamente devido à grande inovação nos modelos de difusão
  • No entanto, a maioria dos modelos existentes ainda tem dificuldade para equilibrar execução de instruções (prompts), naturalidade dos movimentos e qualidade visual
  • Seedance 1.0 é um modelo baseado em geração de vídeo que aplica as principais melhorias técnicas abaixo
    • (i) Coleta de dados de múltiplas fontes com legendas de vídeo precisas, permitindo aprendizado abrangente em vários cenários
    • (ii) Com uma arquitetura eficiente e paradigma de treinamento, oferece suporte simultâneo à geração multishot e a tarefas de texto→vídeo e imagem→vídeo
    • (iii) Pós-processamento cuidadosamente otimizado: fine-tuning supervisionado sofisticado, RLHF especializado em vídeo e mecanismo de recompensa multidimensional melhoram significativamente o desempenho geral
    • (iv) Aceleração do modelo: melhora de 10x na velocidade de inferência por meio de destilação em múltiplas etapas e otimização em nível de sistema
  • Com GPU NVIDIA-L20, é possível gerar um vídeo 1080p de 5 segundos em apenas 41,4 segundos
  • Em comparação com os modelos mais recentes de geração de vídeo, destaca-se em flexibilidade espaço-temporal, estabilidade estrutural, execução de instruções em situações múltiplas e complexas, além de consistência em multishot e storytelling

1 comentários

 
GN⁺ 2025-06-14
Comentários do Hacker News
  • Há quem esteja ansioso por um futuro em que essas capacidades pareçam totalmente comuns e até sem graça
    • Isso leva a imaginar um nível em que seja possível criar, por diversão, no celular e em um grupo de amigos, uma animação completa de 24 episódios com vozes completas, tudo na hora
    • Já dá para fazer tanta coisa que parece inacreditável, e também é curioso pensar que em breve ninguém mais vai ligar para isso
    • Aponta-se que, por mais fácil que seja criar uma série de 24 episódios com um prompt simples, no fim ninguém vai se importar
      • A ideia é que a IA não aumenta o valor do conteúdo; ela destrói a escassez e, com isso, esvazia o significado
      • Também foi feita uma comparação com “Tea. Earl Grey. Hot.”, como metáfora para algo que sai de forma mecânica
    • Se produzir conteúdo ficar tão fácil assim, surge a dúvida de quem ainda vai dedicar muito tempo para assistir vídeos
      • A aposta é que cada um vai ficar ocupado consumindo o próprio conteúdo generativo personalizado
    • Eu também estou muito ansioso por essa tecnologia
      • Por exemplo, adoraria poder fazer eu mesmo algo como um filme de Shadowrun
    • A previsão é de que a quantidade de conteúdo produzido por mês ultrapasse a soma de todo o conteúdo já criado na história da humanidade
      • Em vez de um cenário dominado apenas por mídia de massa como Disney, Marvel e Star Wars, isso pode abrir espaço para uma mídia de cauda longa perfeitamente alinhada aos interesses de cada pessoa
      • Se alguém gosta de Egito e Atlântida, dá para imaginar um mundo em que assista imediatamente a uma série steampunk sobre as duas civilizações em guerra, com um tom sério como o de The Wire
      • Projetos que antes jamais seriam produzidos poderão se tornar viáveis
      • Devem surgir ótimos criadores, e agora diferentes perfis de criadores podem ganhar destaque, como já aconteceu com indie music, quadrinhos independentes e jogos indie
      • O problema real deve ser a descobribilidade
      • No fim, a antiga estrutura da indústria, em que era preciso conseguir uma das poucas vagas limitadas disponíveis por ano, deve ruir, permitindo que muita gente talentosa com visão própria tente coisas grandes
      • Modelos como os de VivziePop(wiki de Vivienne Medrano) e PsychicPebbles(wiki de Zach Hadel), que começaram no YouTube e cresceram até virar grandes IPs, devem se tornar o padrão do futuro
      • A expectativa é de que a inovação criativa melhore não só 2 a 10 vezes, mas talvez algo perto de 1000 vezes
      • Até hoje eu desgostava da maioria dos filmes e séries porque não combinavam com meu gosto, mas sempre gostei da mídia em si
      • Agora há uma expectativa enorme por um mundo em que seja possível encontrar conteúdo exatamente alinhado ao meu gosto e aos meus interesses
  • No futuro, isso pode funcionar como o algoritmo do TikTok: entender meu gosto no instante em que assisto e gerar novos vídeos em tempo real para mim
    • A cada rolagem, o sistema aprenderia do que a pessoa gosta e geraria automaticamente mais vídeos para mostrar
    • Com contexto suficiente alimentado no modelo, o conteúdo ao qual aquela pessoa reage pode se tornar tão envolvente que ela simplesmente não consiga desgrudar da tela
      • É uma imaginação assustadora, mas que também parece inevitável no longo prazo
    • Há também a preocupação de que, em vez de apenas seguir o gosto do usuário, o sistema tente manipular esse próprio gosto para maximizar engajamento
    • Alguns também acham que essa direção tecnológica, na prática, se distancia do motivo pelo qual as pessoas usam redes sociais
      • O exemplo dado é que o ChatGPT pode gerar comentários infinitamente, mas mesmo assim nós acabamos vindo aqui para o Hacker News
    • Mais adiante, pode surgir até um conceito de “modo ao vivo”, em que o vídeo é gerado instantaneamente em tempo real de acordo com a voz do usuário
      • Parece algo que até a Netflix poderia incorporar
    • Fica a curiosidade se o sistema também aprenderia que eu odeio anúncios e realmente refletiria isso
  • Alguns trechos dos vídeos de amostra são bem impressionantes, mas em certas cenas aparecem movimentos artificiais com frequência
    • Parece que os dados de treino se concentraram nas partes mais exageradas do TikTok, porque há uma sensação de que o modelo não consegue sustentar uma cena por mais de 5 segundos
    • Ele claramente lida bem com cenas difíceis, mas comete muitos erros justamente em partes que parecem simples
      • No piano de abertura e na câmera usada pelo fotógrafo aparece “AI text”; no café, a mão do senhor idoso atravessa a boina; e a garota que olha para trás na praia gira a cabeça como uma coruja
      • Na cena do garoto andando de bicicleta em uma cidade europeia, tudo termina com uma entidade criptografada andando de monociclo e parada sob uma árvore na praça
    • A ByteDance já vinha testando internamente esse modelo no Model Arena havia várias semanas sob o nome “Unicorn”
  • Há quem preveja que, em 5 anos, todo o conteúdo poderá ser gerado em tempo real
    • Eu digo alguma coisa, e a resposta vem imediatamente em um vídeo de 5 segundos
    • O vídeo deixaria de ser um “ativo fixo” para virar uma resposta efêmera, criada na hora e logo descartada
    • Vídeos deixariam de ser arquivos passivos enviados por upload e passariam a ser a saída de um fluxo de dados
    • A interface do futuro que substituirá o swipe provavelmente será o prompt por voz
    • O que a Seedance está fazendo não seria tanto experimentar um novo formato, mas sim um sistema de conteúdo gerado em runtime
    • No backend, a infraestrutura de modelos seria comprimida com comet, e os LLMs configurados para rodar de forma mais barata e rápida
    • Se essa combinação se concretizar, será possível oferecer geração de conteúdo em escala sem depender de grandes batches nem cache
    • Se isso realmente pegar, o feed deixará de ser rolagem e passará a ser um loop de renderização
    • No fim, tudo isso deixaria de ser um “serviço de mídia” e se pareceria mais com um sistema de hospedagem de modelos de IA de baixa latência disfarçado de plataforma de vídeo
  • A qualidade do vídeo é ótima, mas surgiu a pergunta: onde está o som?
    • Foi mencionado que o VEO3 pode gerar vídeo muito bem, mas é no áudio que aparece um grande diferencial de qualidade
    • Eu trabalho com soluções de IA em uma grande empresa de streaming de vídeo
      • O problema do VEO3 é a falta de consistência entre prompts
      • Por exemplo, mesmo enviando uma imagem de referência do personagem, se você gerar “uma noiva idosa se inclina” e “uma noiva idosa pega uma moeda”, a personagem parece diferente em cada resultado
      • Claro, o VEO3 oferece image-to-video, mas ainda está muito longe do necessário para construir cenas de verdade
      • Isso vai melhorar com o tempo, mas neste estágio eu gosto do fato de a Seedance focar na consistência entre tomadas
      • A expectativa é que isso também pressione o VEO3 e acelere melhorias nessa área
  • Surgiu a dúvida de por que aparece um círculo grande em todos os vídeos de exemplo
  • Alguém perguntou onde é possível usar a Seedance
    • O Seedance 1.0 deve ser integrado a várias plataformas, como Doubao e Jimeng, a partir de junho de 2025
    • Parece que essa função deve ir direto para o TikTok em breve
      • Foi apontado que haverá uma enxurrada enorme de conteúdo generativo dentro da própria plataforma do TikTok, e que a empresa vai procurar uma forma de monetizar o desejo generalizado de todo mundo virar criador
      • Também há a previsão de que a política das plataformas mude de “você pode publicar conteúdo de graça” para “você só pode publicar passando por um gateway de IA, e ainda terá de pagar por isso”
  • Há quem diga sentir enjoo ou tontura em vídeos com muito movimento
    • Algo parecido aconteceu na primeira demonstração do Sora, mas no Seedance isso parece ter sido um pouco amenizado
    • Nas demos do Veo 3 esse sintoma não apareceu, então surgiu a pergunta se outras pessoas também tiveram sensação parecida nos samples mais movimentados do Seedance
  • Também apareceu a curiosidade sobre se o realismo dos vídeos gerados por IA já se aproxima do nível dos filmes de animação em CGI tradicionais
    • A expectativa é que um especialista certamente consiga apontar falhas claras nos resultados atuais
    • Mesmo assim, existe interesse em saber se no futuro será possível ajustar finamente apenas trechos específicos por meio de prompts
    • Também surgiu a dúvida de quanto recurso computacional e dinheiro isso realmente consome em comparação com o custo por segundo de CGI de alto orçamento em Hollywood
    • Hoje em dia, até CGI comum de produções live-action de Hollywood muitas vezes parece ter qualidade ruim, então a barra de expectativa não está tão alta
      • O próprio processo de aplicar e gerenciar mudanças nos resultados de CGI (change management) também parece bastante interessante
  • Pessoalmente, achei estranho que “Old man” não parece tão velho assim, embora talvez isso seja só porque eu também envelheci