14 pontos por xguru 2022-11-24 | 1 comentários | Compartilhar no WhatsApp
  • O SD v1 mudou o cenário dos modelos de IA de código aberto
  • O SD v2 treinou o modelo de text-to-image com o OpenCLIP, um novo codificador de texto, melhorando drasticamente a qualidade das imagens em relação ao v1
  • Geração de imagens em 512x512 e 768x768
  • Treinado usando um subconjunto estético do conjunto de dados LAION-5B (além de excluir conteúdo adulto com um filtro NSFW)
  • Inclui um modelo de Upscaler Diffusion para aumentar a resolução da imagem em 4x
    • Ou seja, é possível fazer upscale de imagens 128x128 para 512x512
    • Assim, o SD v2 agora consegue gerar imagens com resolução acima de 2048x2048
  • Modelo Depth-to-Image Diffusion: depth2img
    • Expande a funcionalidade existente de image-to-image para novas possibilidades
    • Infere a profundidade da imagem de entrada e depois gera uma nova imagem usando tanto o texto quanto as informações de profundidade
    • Ou seja, agora é possível gerar de forma diferente apenas partes específicas de acordo com a profundidade da imagem
  • Modelo Inpainting Diffusion aprimorado
  • Assim como o SD v1, foi otimizado para rodar até mesmo em ambiente com uma única GPU

1 comentários

 
laeyoung 2022-11-25

Nós também oferecemos o SD v1 com um upscaler acoplado (gera em 512 x 512 e, se o usuário quiser, faz upscale de 4x na largura e na altura), e essa combinação acabou sendo mais rápida e melhor do que gerar em tamanho grande diretamente com o SD v1.