- Goku é uma nova família de modelos de geração de imagem e vídeo baseada em "Rectified Flow Transformer", com o objetivo de alcançar desempenho de nível líder do setor
- Aplica diversas otimizações, como "seleção de dados, design do modelo e formulação de flow", para geração visual de alta qualidade
- Principais características
- Geração precisa de imagens e vídeos por meio de seleção de dados de alta qualidade
- Reforça a interação entre tokens de imagem e vídeo usando a técnica Rectified Flow
- Oferece excelente desempenho na geração de imagens e vídeos
- Tarefas de geração suportadas
- Texto → geração de vídeo
- Imagem → geração de vídeo
- Texto → geração de imagem
- Benchmark de desempenho: registrou alto desempenho nos principais benchmarks
- 0.76 (GenEval - texto → geração de imagem)
- 83.65 (DPG-Bench - texto → geração de imagem)
- 84.85 (VBench - texto → geração de vídeo)
- O Goku-T2V registrou 84.85 pontos na comparação de desempenho do VBench, ocupando o 2º lugar em 7 de outubro de 2024
- Superou vários modelos comerciais de texto para vídeo (AnimateDiff-V2, OpenSora, Gen-3, Kling etc.)
2 comentários
Ultimamente a ByteDance vem publicando um monte de artigos técnicos relacionados... acho que em breve isso também pode ser aplicado ao TikTok.
Goku+: Video Ads Foundation Models
Os casos de aplicação reais na parte de baixo aqui são ainda mais interessantes.
Eles criam avatares para marketing ou geram clipes de vídeo a partir de imagens de produtos.
Depois, com isso, combinam pessoas e produtos em uma coisa só e chegam até a produzir vídeos completos de apresentação do produto.
Então já fazem com facilidade vídeos de gente comendo, andando vestida com a roupa, se maquiando e até usando shampoo.
Acho que talvez sejam exemplos especialmente voltados para o social commerce chinês.