- Modelos de Diffusion trouxeram uma revolução na geração de imagens, áudio e vídeo
- Porém, como exigem um processo de geração iterativo, são lentos e difíceis de aplicar em tempo real
- O Consistency Model permite geração de ótima qualidade em apenas 1~2 etapas, sem Adversarial Training
- A qualidade também melhora quando se faz amostragem várias vezes
- Também oferece suporte, sem treinamento especial, a edição de dados em zero-shot, image inpainting, colorização, super-resolution etc.
- Pode ser treinado extraindo um Diffusion Model pré-treinado ou como um modelo generativo independente
1 comentários
O artigo já tinha sido publicado antes: Consistency Models https://arxiv.org/abs/2303.01469
No primeiro artigo sobre modelos de difusão, a geração era feita em 1000 etapas, e agora, com a evolução contínua, isso caiu para menos de 50 etapas.
No fim do ano passado também surgiu a história do Distilled StableDiffusion2, que reduz isso para 1 a 4 etapas, mas o artigo ainda não foi publicado.
https://twitter.com/EMostaque/status/1598131202044866560