2 pontos por GN⁺ 2025-04-21 | 1 comentários | Compartilhar no WhatsApp
  • Estudo sobre como empacotar o contexto de frames de entrada em um modelo de previsão do próximo frame para geração de vídeo
  • FramePack é um método que otimiza o layout de memória da GPU para realizar a previsão de frames com eficiência
  • Aloca recursos de GPU de acordo com a importância dos frames, reduzindo a complexidade computacional para O(1)
  • Propõe amostragem bidirecional para resolver o problema de drifting
  • Destaca o método de amostragem anti-drifting invertida, que trata o primeiro frame como elemento importante na conversão de imagem para vídeo

Empacotamento de frames de entrada na geração de vídeo

  • O modelo de previsão do próximo frame gera novos frames usando vários frames de entrada
  • FramePack codifica os frames de entrada de acordo com o layout de memória da GPU, possibilitando uma geração de frames eficiente
  • Cada frame é codificado usando um kernel de patchificação, e o comprimento do contexto é ajustado conforme a importância
  • Por exemplo, no HunyuanVideo, um frame 480p se torna 1536 tokens ao usar um kernel de patchificação (1, 2, 2), e 192 tokens ao usar um kernel de patchificação (2, 4, 4)

Importância dos frames e agendamento

  • Frames importantes recebem mais recursos de GPU
  • Por meio de vários padrões de compressão, é possível tornar os frames iniciais igualmente importantes
  • Todo o agendamento tem complexidade O(1)
  • O artigo fornece uma avaliação detalhada de vários esquemas de agendamento

Problema de drifting e método de solução

  • Drifting é o problema em que a qualidade se degrada à medida que o vídeo fica mais longo
  • Também é chamado de acúmulo de erro ou viés de exposição
  • Para resolver isso, rompe-se a causalidade e introduz-se amostragem bidirecional
  • A amostragem anti-drifting invertida usa o primeiro frame como alvo aproximado em toda a inferência

Desempenho na conversão de imagem para vídeo

  • Em um notebook com RTX 3060 6GB, foram gerados vídeos imagem-5 segundos e imagem-60 segundos usando a variante HY 13B
  • Os resultados foram comprimidos com h264crf18 para se adequar ao repositório no GitHub

1 comentários

 
GN⁺ 2025-04-21
Opinião no Hacker News
  • Esse cara é um gênio. Para quem não sabe que ele também criou o ControlNet, este modelo é o primeiro modelo de geração de vídeo realmente decente que roda em hardware de consumidor. Também dá para esperar suporte a poses do ControlNet em breve
    • Curiosamente, este modelo parece querer muito que as pessoas dancem. Até uma pessoa sentada para uma entrevista começa a dançar sentada
    • Os exemplos são bastante impressionantes, e os recursos usados para gerar isso são quase insignificantes. Parece que a inferência também seria possível em hardware de consumidor de gerações anteriores. Também queria ver estatísticas de throughput de inferência em uma 5090
    • Será que isso também poderia ser feito espacialmente? Por exemplo, gerar de cima para baixo em vez de gerar a imagem inteira de uma vez?
    • Será que este modelo poderia ser usado para interpolação em vez de extrapolação de vídeo?
    • Impressionante. Com mais RAM ou alguma outra coisa, isso poderia ficar mais rápido? Daria para conseguir mais velocidade em uma H100 ou H200?
    • Parece que o único movimento que este modelo consegue fazer é dançar