SnapFusion - modelo de difusão text-to-image capaz de gerar em 2 segundos em dispositivos móveis

xguru · 2023-06-14T11:17:02+09:00

Alcançado por meio de uma arquitetura de rede eficiente e de melhorias na destilação por etapas Identifica a redundância do modelo original e apresenta uma UNet eficiente que reduz o cálculo do decodificador de imagem por meio de destilação de dados Em experimentos com o MS-COCO, o modelo SnapFusion com apenas 8 etapas de remoção de ruído alcançou pontuações de FID e CLIP melhores do que o Stable Diffusion v1.5 com 50 etapas

(snap-research.github.io)

9 pontos por xguru 2023-06-14 | 1 comentários | Compartilhar no WhatsApp

Alcançado por meio de uma arquitetura de rede eficiente e de melhorias na destilação por etapas
Identifica a redundância do modelo original e apresenta uma UNet eficiente que reduz o cálculo do decodificador de imagem por meio de destilação de dados
Em experimentos com o MS-COCO, o modelo SnapFusion com apenas 8 etapas de remoção de ruído alcançou pontuações de FID e CLIP melhores do que o Stable Diffusion v1.5 com 50 etapas

1 comentários

xguru 2023-06-14

É um artigo publicado pelo Snapchat, mas como o código ainda não foi divulgado... há comentários discutindo se isso é realmente possível. https://news.ycombinator.com/item?id=36304716
Por enquanto, o vídeo de demonstração está rodando no modo avião.

SnapFusion - modelo de difusão text-to-image capaz de gerar em 2 segundos em dispositivos móveis

Leituras relacionadas

1 comentários