- Estudo sobre como empacotar o contexto de frames de entrada em um modelo de previsão do próximo frame para geração de vídeo
- FramePack é um método que otimiza o layout de memória da GPU para realizar a previsão de frames com eficiência
- Aloca recursos de GPU de acordo com a importância dos frames, reduzindo a complexidade computacional para O(1)
- Propõe amostragem bidirecional para resolver o problema de drifting
- Destaca o método de amostragem anti-drifting invertida, que trata o primeiro frame como elemento importante na conversão de imagem para vídeo
Empacotamento de frames de entrada na geração de vídeo
- O modelo de previsão do próximo frame gera novos frames usando vários frames de entrada
- FramePack codifica os frames de entrada de acordo com o layout de memória da GPU, possibilitando uma geração de frames eficiente
- Cada frame é codificado usando um kernel de patchificação, e o comprimento do contexto é ajustado conforme a importância
- Por exemplo, no HunyuanVideo, um frame 480p se torna 1536 tokens ao usar um kernel de patchificação (1, 2, 2), e 192 tokens ao usar um kernel de patchificação (2, 4, 4)
Importância dos frames e agendamento
- Frames importantes recebem mais recursos de GPU
- Por meio de vários padrões de compressão, é possível tornar os frames iniciais igualmente importantes
- Todo o agendamento tem complexidade O(1)
- O artigo fornece uma avaliação detalhada de vários esquemas de agendamento
Problema de drifting e método de solução
- Drifting é o problema em que a qualidade se degrada à medida que o vídeo fica mais longo
- Também é chamado de acúmulo de erro ou viés de exposição
- Para resolver isso, rompe-se a causalidade e introduz-se amostragem bidirecional
- A amostragem anti-drifting invertida usa o primeiro frame como alvo aproximado em toda a inferência
Desempenho na conversão de imagem para vídeo
- Em um notebook com RTX 3060 6GB, foram gerados vídeos imagem-5 segundos e imagem-60 segundos usando a variante HY 13B
- Os resultados foram comprimidos com h264crf18 para se adequar ao repositório no GitHub
1 comentários
Opinião no Hacker News