6 pontos por xguru 2025-02-14 | 2 comentários | Compartilhar no WhatsApp
  • Goku é uma nova família de modelos de geração de imagem e vídeo baseada em "Rectified Flow Transformer", com o objetivo de alcançar desempenho de nível líder do setor
  • Aplica diversas otimizações, como "seleção de dados, design do modelo e formulação de flow", para geração visual de alta qualidade
  • Principais características
    • Geração precisa de imagens e vídeos por meio de seleção de dados de alta qualidade
    • Reforça a interação entre tokens de imagem e vídeo usando a técnica Rectified Flow
    • Oferece excelente desempenho na geração de imagens e vídeos
  • Tarefas de geração suportadas
    • Texto → geração de vídeo
    • Imagem → geração de vídeo
    • Texto → geração de imagem
  • Benchmark de desempenho: registrou alto desempenho nos principais benchmarks
    • 0.76 (GenEval - texto → geração de imagem)
    • 83.65 (DPG-Bench - texto → geração de imagem)
    • 84.85 (VBench - texto → geração de vídeo)
  • O Goku-T2V registrou 84.85 pontos na comparação de desempenho do VBench, ocupando o 2º lugar em 7 de outubro de 2024
    • Superou vários modelos comerciais de texto para vídeo (AnimateDiff-V2, OpenSora, Gen-3, Kling etc.)

2 comentários

 
kimhj 2025-02-14

Ultimamente a ByteDance vem publicando um monte de artigos técnicos relacionados... acho que em breve isso também pode ser aplicado ao TikTok.

 
xguru 2025-02-14

Goku+: Video Ads Foundation Models

Os casos de aplicação reais na parte de baixo aqui são ainda mais interessantes.

Eles criam avatares para marketing ou geram clipes de vídeo a partir de imagens de produtos.
Depois, com isso, combinam pessoas e produtos em uma coisa só e chegam até a produzir vídeos completos de apresentação do produto.
Então já fazem com facilidade vídeos de gente comendo, andando vestida com a roupa, se maquiando e até usando shampoo.
Acho que talvez sejam exemplos especialmente voltados para o social commerce chinês.