Seedance 1.0 - o modelo de geração de vídeo multishot da Bytedance

(seed.bytedance.com)

4 pontos por GN⁺ 2025-06-14 | 1 comentários | Compartilhar no WhatsApp

Um modelo de geração de vídeo multishot baseado em texto e imagem, com desempenho mais preciso e flexível do que os modelos anteriores em compreensão semântica e interpretação de prompts
Além da alta resolução de 1080p, entrega resultados com transições suaves entre cenas, detalhes ricos e aparência cinematográfica
Melhora geral de desempenho com fine-tuning detalhado e um mecanismo de recompensa RLHF especializado em vídeo
Com base em descrições em texto ou imagens, é capaz de produzir conteúdo visual dinâmico e imersivo que atende aos requisitos solicitados
Com uma arquitetura eficiente e um novo paradigma de treinamento, oferece suporte tanto à geração multishot quanto a tarefas de texto-para-vídeo e imagem-para-vídeo

Introdução ao Seedance 1.0

Recentemente, a tecnologia de geração de vídeo vem avançando rapidamente devido à grande inovação nos modelos de difusão
No entanto, a maioria dos modelos existentes ainda tem dificuldade para equilibrar execução de instruções (prompts), naturalidade dos movimentos e qualidade visual
Seedance 1.0 é um modelo baseado em geração de vídeo que aplica as principais melhorias técnicas abaixo
- (i) Coleta de dados de múltiplas fontes com legendas de vídeo precisas, permitindo aprendizado abrangente em vários cenários
- (ii) Com uma arquitetura eficiente e paradigma de treinamento, oferece suporte simultâneo à geração multishot e a tarefas de texto→vídeo e imagem→vídeo
- (iii) Pós-processamento cuidadosamente otimizado: fine-tuning supervisionado sofisticado, RLHF especializado em vídeo e mecanismo de recompensa multidimensional melhoram significativamente o desempenho geral
- (iv) Aceleração do modelo: melhora de 10x na velocidade de inferência por meio de destilação em múltiplas etapas e otimização em nível de sistema
Com GPU NVIDIA-L20, é possível gerar um vídeo 1080p de 5 segundos em apenas 41,4 segundos
Em comparação com os modelos mais recentes de geração de vídeo, destaca-se em flexibilidade espaço-temporal, estabilidade estrutural, execução de instruções em situações múltiplas e complexas, além de consistência em multishot e storytelling

1 comentários

GN⁺ 2025-06-14

Comentários do Hacker News

Há quem esteja ansioso por um futuro em que essas capacidades pareçam totalmente comuns e até sem graça
- Isso leva a imaginar um nível em que seja possível criar, por diversão, no celular e em um grupo de amigos, uma animação completa de 24 episódios com vozes completas, tudo na hora
- Já dá para fazer tanta coisa que parece inacreditável, e também é curioso pensar que em breve ninguém mais vai ligar para isso
- Aponta-se que, por mais fácil que seja criar uma série de 24 episódios com um prompt simples, no fim ninguém vai se importar
  - A ideia é que a IA não aumenta o valor do conteúdo; ela destrói a escassez e, com isso, esvazia o significado
  - Também foi feita uma comparação com “Tea. Earl Grey. Hot.”, como metáfora para algo que sai de forma mecânica
- Se produzir conteúdo ficar tão fácil assim, surge a dúvida de quem ainda vai dedicar muito tempo para assistir vídeos
  - A aposta é que cada um vai ficar ocupado consumindo o próprio conteúdo generativo personalizado
- Eu também estou muito ansioso por essa tecnologia
  - Por exemplo, adoraria poder fazer eu mesmo algo como um filme de Shadowrun
- A previsão é de que a quantidade de conteúdo produzido por mês ultrapasse a soma de todo o conteúdo já criado na história da humanidade
  - Em vez de um cenário dominado apenas por mídia de massa como Disney, Marvel e Star Wars, isso pode abrir espaço para uma mídia de cauda longa perfeitamente alinhada aos interesses de cada pessoa
  - Se alguém gosta de Egito e Atlântida, dá para imaginar um mundo em que assista imediatamente a uma série steampunk sobre as duas civilizações em guerra, com um tom sério como o de The Wire
  - Projetos que antes jamais seriam produzidos poderão se tornar viáveis
  - Devem surgir ótimos criadores, e agora diferentes perfis de criadores podem ganhar destaque, como já aconteceu com indie music, quadrinhos independentes e jogos indie
  - O problema real deve ser a descobribilidade
  - No fim, a antiga estrutura da indústria, em que era preciso conseguir uma das poucas vagas limitadas disponíveis por ano, deve ruir, permitindo que muita gente talentosa com visão própria tente coisas grandes
  - Modelos como os de VivziePop(wiki de Vivienne Medrano) e PsychicPebbles(wiki de Zach Hadel), que começaram no YouTube e cresceram até virar grandes IPs, devem se tornar o padrão do futuro
  - A expectativa é de que a inovação criativa melhore não só 2 a 10 vezes, mas talvez algo perto de 1000 vezes
  - Até hoje eu desgostava da maioria dos filmes e séries porque não combinavam com meu gosto, mas sempre gostei da mídia em si
  - Agora há uma expectativa enorme por um mundo em que seja possível encontrar conteúdo exatamente alinhado ao meu gosto e aos meus interesses
No futuro, isso pode funcionar como o algoritmo do TikTok: entender meu gosto no instante em que assisto e gerar novos vídeos em tempo real para mim
- A cada rolagem, o sistema aprenderia do que a pessoa gosta e geraria automaticamente mais vídeos para mostrar
- Com contexto suficiente alimentado no modelo, o conteúdo ao qual aquela pessoa reage pode se tornar tão envolvente que ela simplesmente não consiga desgrudar da tela
  - É uma imaginação assustadora, mas que também parece inevitável no longo prazo
- Há também a preocupação de que, em vez de apenas seguir o gosto do usuário, o sistema tente manipular esse próprio gosto para maximizar engajamento
- Alguns também acham que essa direção tecnológica, na prática, se distancia do motivo pelo qual as pessoas usam redes sociais
  - O exemplo dado é que o ChatGPT pode gerar comentários infinitamente, mas mesmo assim nós acabamos vindo aqui para o Hacker News
- Mais adiante, pode surgir até um conceito de “modo ao vivo”, em que o vídeo é gerado instantaneamente em tempo real de acordo com a voz do usuário
  - Parece algo que até a Netflix poderia incorporar
- Fica a curiosidade se o sistema também aprenderia que eu odeio anúncios e realmente refletiria isso
Alguns trechos dos vídeos de amostra são bem impressionantes, mas em certas cenas aparecem movimentos artificiais com frequência
- Parece que os dados de treino se concentraram nas partes mais exageradas do TikTok, porque há uma sensação de que o modelo não consegue sustentar uma cena por mais de 5 segundos
- Ele claramente lida bem com cenas difíceis, mas comete muitos erros justamente em partes que parecem simples
  - No piano de abertura e na câmera usada pelo fotógrafo aparece “AI text”; no café, a mão do senhor idoso atravessa a boina; e a garota que olha para trás na praia gira a cabeça como uma coruja
  - Na cena do garoto andando de bicicleta em uma cidade europeia, tudo termina com uma entidade criptografada andando de monociclo e parada sob uma árvore na praça
- A ByteDance já vinha testando internamente esse modelo no Model Arena havia várias semanas sob o nome “Unicorn”
  - Ele já está pontuando acima do Google Veo 3
  - ArtificialAnalysis: ranking do Model Arena
Há quem preveja que, em 5 anos, todo o conteúdo poderá ser gerado em tempo real
- Eu digo alguma coisa, e a resposta vem imediatamente em um vídeo de 5 segundos
- O vídeo deixaria de ser um “ativo fixo” para virar uma resposta efêmera, criada na hora e logo descartada
- Vídeos deixariam de ser arquivos passivos enviados por upload e passariam a ser a saída de um fluxo de dados
- A interface do futuro que substituirá o swipe provavelmente será o prompt por voz
- O que a Seedance está fazendo não seria tanto experimentar um novo formato, mas sim um sistema de conteúdo gerado em runtime
- No backend, a infraestrutura de modelos seria comprimida com comet, e os LLMs configurados para rodar de forma mais barata e rápida
- Se essa combinação se concretizar, será possível oferecer geração de conteúdo em escala sem depender de grandes batches nem cache
- Se isso realmente pegar, o feed deixará de ser rolagem e passará a ser um loop de renderização
- No fim, tudo isso deixaria de ser um “serviço de mídia” e se pareceria mais com um sistema de hospedagem de modelos de IA de baixa latência disfarçado de plataforma de vídeo
A qualidade do vídeo é ótima, mas surgiu a pergunta: onde está o som?
- Foi mencionado que o VEO3 pode gerar vídeo muito bem, mas é no áudio que aparece um grande diferencial de qualidade
- Eu trabalho com soluções de IA em uma grande empresa de streaming de vídeo
  - O problema do VEO3 é a falta de consistência entre prompts
  - Por exemplo, mesmo enviando uma imagem de referência do personagem, se você gerar “uma noiva idosa se inclina” e “uma noiva idosa pega uma moeda”, a personagem parece diferente em cada resultado
  - Claro, o VEO3 oferece image-to-video, mas ainda está muito longe do necessário para construir cenas de verdade
  - Isso vai melhorar com o tempo, mas neste estágio eu gosto do fato de a Seedance focar na consistência entre tomadas
  - A expectativa é que isso também pressione o VEO3 e acelere melhorias nessa área
Surgiu a dúvida de por que aparece um círculo grande em todos os vídeos de exemplo
Alguém perguntou onde é possível usar a Seedance
- O Seedance 1.0 deve ser integrado a várias plataformas, como Doubao e Jimeng, a partir de junho de 2025
- Parece que essa função deve ir direto para o TikTok em breve
  - Foi apontado que haverá uma enxurrada enorme de conteúdo generativo dentro da própria plataforma do TikTok, e que a empresa vai procurar uma forma de monetizar o desejo generalizado de todo mundo virar criador
  - Também há a previsão de que a política das plataformas mude de “você pode publicar conteúdo de graça” para “você só pode publicar passando por um gateway de IA, e ainda terá de pagar por isso”
Há quem diga sentir enjoo ou tontura em vídeos com muito movimento
- Algo parecido aconteceu na primeira demonstração do Sora, mas no Seedance isso parece ter sido um pouco amenizado
- Nas demos do Veo 3 esse sintoma não apareceu, então surgiu a pergunta se outras pessoas também tiveram sensação parecida nos samples mais movimentados do Seedance
Também apareceu a curiosidade sobre se o realismo dos vídeos gerados por IA já se aproxima do nível dos filmes de animação em CGI tradicionais
- A expectativa é que um especialista certamente consiga apontar falhas claras nos resultados atuais
- Mesmo assim, existe interesse em saber se no futuro será possível ajustar finamente apenas trechos específicos por meio de prompts
- Também surgiu a dúvida de quanto recurso computacional e dinheiro isso realmente consome em comparação com o custo por segundo de CGI de alto orçamento em Hollywood
- Hoje em dia, até CGI comum de produções live-action de Hollywood muitas vezes parece ter qualidade ruim, então a barra de expectativa não está tão alta
  - O próprio processo de aplicar e gerenciar mudanças nos resultados de CGI (change management) também parece bastante interessante
Pessoalmente, achei estranho que “Old man” não parece tão velho assim, embora talvez isso seja só porque eu também envelheci

Seedance 1.0 - o modelo de geração de vídeo multishot da Bytedance

Introdução ao Seedance 1.0

Leituras relacionadas

1 comentários

Comentários do Hacker News