Stable Diffusion - open source de Text-To-Image semelhante ao DALL-E

xguru · 2022-08-16T10:07:51+09:00

Modelo Latent Diffusion treinado em imagens 512x512 do banco de dados LAION-5B Usa o codificador de texto CLIP ViT-L/14, semelhante ao Imagen do Google É leve, então funciona até com uma única GPU com mais de 10 GB de VRAM Colaboração e patrocínio da Stability AI e de pesquisadores da LAION

(github.com/CompVis)

11 pontos por xguru 2022-08-16 | 1 comentários | Compartilhar no WhatsApp

Modelo Latent Diffusion treinado em imagens 512x512 do banco de dados LAION-5B
Usa o codificador de texto CLIP ViT-L/14, semelhante ao Imagen do Google
É leve, então funciona até com uma única GPU com mais de 10 GB de VRAM
Colaboração e patrocínio da Stability AI e de pesquisadores da LAION

1 comentários

xguru 2022-08-16

Dizem que, em partes como ilustrações de arte moderna, os resultados são melhores do que os do DALL-E 2 ou do MidJourney.
Segundo comentários no Discord dos desenvolvedores, também roda em Macs com M1.
Como, antes de tudo, há poucas restrições de hardware, isso parece ter um grande potencial como vantagem por permitir que qualquer pessoa use com facilidade.
Claro, embora seja open source, por enquanto o acesso está disponível apenas para uso acadêmico.

Operar diretamente um gerador de imagens por IA como o DALL-E
Imagen - o modelo de difusão text-to-image do Google
LAION-400M - dataset com 400 milhões de pares imagem-texto

Stable Diffusion - open source de Text-To-Image semelhante ao DALL-E

Leituras relacionadas

1 comentários