- O SD v1 mudou o cenário dos modelos de IA de código aberto
- O SD v2 treinou o modelo de text-to-image com o OpenCLIP, um novo codificador de texto, melhorando drasticamente a qualidade das imagens em relação ao v1
- Geração de imagens em 512x512 e 768x768
- Treinado usando um subconjunto estético do conjunto de dados LAION-5B (além de excluir conteúdo adulto com um filtro NSFW)
- Inclui um modelo de Upscaler Diffusion para aumentar a resolução da imagem em 4x
- Ou seja, é possível fazer upscale de imagens 128x128 para 512x512
- Assim, o SD v2 agora consegue gerar imagens com resolução acima de 2048x2048
- Modelo Depth-to-Image Diffusion: depth2img
- Expande a funcionalidade existente de image-to-image para novas possibilidades
- Infere a profundidade da imagem de entrada e depois gera uma nova imagem usando tanto o texto quanto as informações de profundidade
- Ou seja, agora é possível gerar de forma diferente apenas partes específicas de acordo com a profundidade da imagem
- Modelo Inpainting Diffusion aprimorado
- Assim como o SD v1, foi otimizado para rodar até mesmo em ambiente com uma única GPU
Ainda não há comentários.