- O artigo discute os esforços do autor para melhorar o desempenho do modelo de código aberto Stable Diffusion XL 1.0 (SDXL), da Stability AI. Esse modelo gera imagens em resolução de 1024x1024.
- O SDXL é composto por dois modelos: um modelo base e um modelo refinador opcional, que melhora bastante os detalhes sem impactar a velocidade.
- O autor trabalhou com o SDXL usando a biblioteca Python
diffusers, da Hugging Face, e apresentou exemplos de como carregar e usar tanto o modelo base quanto o refinador.
- O autor gerou imagens usando uma máquina virtual em nuvem com uma GPU L4 intermediária e mencionou que cada imagem de 1024x1024 é gerada em cerca de 22 segundos.
- O autor experimentou dois novos recursos do
diffusers: pesos de prompt e treinamento/inferência com Dreambooth LoRA.
- Os pesos de prompt melhoram o resultado final ao permitir um peso matemático maior para termos nos embeddings textuais posicionais resultantes.
- O suporte a Dreambooth LoRA permite ajustar finamente o Stable Diffusion com um pequeno conjunto de imagens de origem e uma palavra-chave de gatilho, possibilitando usar o "conceito" dessa imagem em outros contextos dados à palavra-chave.
- O autor testou o potencial do SDXL treinando uma LoRA para o conceito de Ugly Sonic, que não existe no conjunto de dados original do Stable Diffusion. Os resultados foram muito melhores e mais consistentes.
- O autor também treinou uma LoRA com imagens de lixo altamente distorcidas, usando "wrong" como prompt. A ideia era que a LoRA pudesse usar "wrong" como um "prompt negativo" e evitar essas imagens, gerando imagens menos distorcidas.
- O autor constatou que a LoRA torna o SDXL mais inteligente e mais fiel à intenção do prompt, melhorando a qualidade e a clareza das imagens geradas.
- O autor concluiu que treinar o SDXL com imagens ruins é uma forma de aprendizado por reforço a partir de feedback humano (RLHF), semelhante à técnica que torna o ChatGPT poderoso.
- O autor pretende continuar explorando o potencial das "LoRAs negativas", incluindo combiná-las com outras LoRAs para melhorar o desempenho.
1 comentários
Comentários do Hacker News