SnapFusion - modelo de difusão text-to-image capaz de gerar em 2 segundos em dispositivos móveis
(snap-research.github.io)- Alcançado por meio de uma arquitetura de rede eficiente e de melhorias na destilação por etapas
- Identifica a redundância do modelo original e apresenta uma UNet eficiente que reduz o cálculo do decodificador de imagem por meio de destilação de dados
- Em experimentos com o MS-COCO, o modelo SnapFusion com apenas 8 etapas de remoção de ruído alcançou pontuações de FID e CLIP melhores do que o Stable Diffusion v1.5 com 50 etapas
1 comentários
É um artigo publicado pelo Snapchat, mas como o código ainda não foi divulgado... há comentários discutindo se isso é realmente possível. https://news.ycombinator.com/item?id=36304716
Por enquanto, o vídeo de demonstração está rodando no modo avião.