Goku - modelo de geração de vídeo baseado em Flow da ByteDance

xguru · 2025-02-14T10:02:01+09:00

Goku é uma nova família de modelos de geração de imagem e vídeo baseada em "Rectified Flow Transformer", com o objetivo de alcançar desempenho de nível líder do setor Aplica diversas otimizações, como "seleção de dados, design do modelo e formulação de flow", para geração visual de alta qualidade Principais características Geração precisa de imagens e vídeos por meio de seleção de dados de alta qualidade Reforça a interação entre tokens de imagem e vídeo usando a técnica Rectified Flow Oferece excelente desempenho na geração de imagens e vídeos Tarefas de geração suportadas Texto → geração de vídeo Imagem → geração de vídeo Texto → geração de imagem Benchmark de desempenho: registrou alto desempenho nos principais benchmarks 0.76 (GenEval - texto → geração de imagem) 83.65 (DPG-Bench - texto → geração de imagem) 84.85 (VBench - texto → geração de vídeo) O Goku-T2V registrou 84.85 pontos na comparação de desempenho do VBench, ocupando o 2º lugar em 7 de outubro de 2024 Superou vários modelos comerciais de texto para vídeo (AnimateDiff-V2, OpenSora, Gen-3, Kling etc.)

(github.com/Saiyan-World)

6 pontos por xguru 2025-02-14 | 2 comentários | Compartilhar no WhatsApp

Goku é uma nova família de modelos de geração de imagem e vídeo baseada em "Rectified Flow Transformer", com o objetivo de alcançar desempenho de nível líder do setor
Aplica diversas otimizações, como "seleção de dados, design do modelo e formulação de flow", para geração visual de alta qualidade
Principais características
- Geração precisa de imagens e vídeos por meio de seleção de dados de alta qualidade
- Reforça a interação entre tokens de imagem e vídeo usando a técnica Rectified Flow
- Oferece excelente desempenho na geração de imagens e vídeos
Tarefas de geração suportadas
- Texto → geração de vídeo
- Imagem → geração de vídeo
- Texto → geração de imagem
Benchmark de desempenho: registrou alto desempenho nos principais benchmarks
- 0.76 (GenEval - texto → geração de imagem)
- 83.65 (DPG-Bench - texto → geração de imagem)
- 84.85 (VBench - texto → geração de vídeo)
O Goku-T2V registrou 84.85 pontos na comparação de desempenho do VBench, ocupando o 2º lugar em 7 de outubro de 2024
- Superou vários modelos comerciais de texto para vídeo (AnimateDiff-V2, OpenSora, Gen-3, Kling etc.)

2 comentários

kimhj 2025-02-14

Ultimamente a ByteDance vem publicando um monte de artigos técnicos relacionados... acho que em breve isso também pode ser aplicado ao TikTok.

xguru 2025-02-14

Goku+: Video Ads Foundation Models

Os casos de aplicação reais na parte de baixo aqui são ainda mais interessantes.

Eles criam avatares para marketing ou geram clipes de vídeo a partir de imagens de produtos.
Depois, com isso, combinam pessoas e produtos em uma coisa só e chegam até a produzir vídeos completos de apresentação do produto.
Então já fazem com facilidade vídeos de gente comendo, andando vestida com a roupa, se maquiando e até usando shampoo.
Acho que talvez sejam exemplos especialmente voltados para o social commerce chinês.

Goku - modelo de geração de vídeo baseado em Flow da ByteDance

Leituras relacionadas

2 comentários