2 pontos por GN⁺ 2023-08-23 | 1 comentários | Compartilhar no WhatsApp
  • O artigo discute os esforços do autor para melhorar o desempenho do modelo de código aberto Stable Diffusion XL 1.0 (SDXL), da Stability AI. Esse modelo gera imagens em resolução de 1024x1024.
  • O SDXL é composto por dois modelos: um modelo base e um modelo refinador opcional, que melhora bastante os detalhes sem impactar a velocidade.
  • O autor trabalhou com o SDXL usando a biblioteca Python diffusers, da Hugging Face, e apresentou exemplos de como carregar e usar tanto o modelo base quanto o refinador.
  • O autor gerou imagens usando uma máquina virtual em nuvem com uma GPU L4 intermediária e mencionou que cada imagem de 1024x1024 é gerada em cerca de 22 segundos.
  • O autor experimentou dois novos recursos do diffusers: pesos de prompt e treinamento/inferência com Dreambooth LoRA.
  • Os pesos de prompt melhoram o resultado final ao permitir um peso matemático maior para termos nos embeddings textuais posicionais resultantes.
  • O suporte a Dreambooth LoRA permite ajustar finamente o Stable Diffusion com um pequeno conjunto de imagens de origem e uma palavra-chave de gatilho, possibilitando usar o "conceito" dessa imagem em outros contextos dados à palavra-chave.
  • O autor testou o potencial do SDXL treinando uma LoRA para o conceito de Ugly Sonic, que não existe no conjunto de dados original do Stable Diffusion. Os resultados foram muito melhores e mais consistentes.
  • O autor também treinou uma LoRA com imagens de lixo altamente distorcidas, usando "wrong" como prompt. A ideia era que a LoRA pudesse usar "wrong" como um "prompt negativo" e evitar essas imagens, gerando imagens menos distorcidas.
  • O autor constatou que a LoRA torna o SDXL mais inteligente e mais fiel à intenção do prompt, melhorando a qualidade e a clareza das imagens geradas.
  • O autor concluiu que treinar o SDXL com imagens ruins é uma forma de aprendizado por reforço a partir de feedback humano (RLHF), semelhante à técnica que torna o ChatGPT poderoso.
  • O autor pretende continuar explorando o potencial das "LoRAs negativas", incluindo combiná-las com outras LoRAs para melhorar o desempenho.

1 comentários

 
GN⁺ 2023-08-23
Comentários do Hacker News
  • O conceito de RLHF personalizado (Reinforcement Learning from Human Feedback) está ganhando atenção, com potencial para orientar a saída da IA de acordo com as preferências individuais.
  • Foi proposta a implementação de opções de feedback de "curtir/não curtir" em todas as imagens geradas por sistemas de IA, junto com rótulos de texto opcionais para ignorar imagens "erradas".
  • Foi levantada uma dúvida sobre o loop de iteração mais rápido possível para feedback, e sugerida a ideia de coletar cerca de 10k preferências por segundo para aumentar a probabilidade de o modelo gerar imagens preferidas pessoalmente.
  • O uso do Stable Diffusion (SD) para criação artística é reconhecido, e foi enfatizado que a diferença entre SD 1.5/2.0 e SDXL é importante.
  • Cientistas de dados registraram todas as teclas digitadas em seus PCs, e isso agora é considerado dado útil para sistemas de IA.
  • Foi compartilhada a ideia de usar o SDXL Base Model para gerar imagens misturando prompts de vários estilos, usar isso para treinar uma LoRA (Learning from Observations and Rewards) e depois gerar novamente com essa LoRA + o prompt usado para criar o conjunto de treino.
  • O resultado desse processo é descrito como um efeito intensificado: mais erros, mais estranheza e em alta resolução.
  • Considera-se que o lançamento de IAs de geração de imagens não recebeu muita atenção devido às exigências maiores de VRAM e de computação, além da qualidade de saída inferior em comparação com modelos SD1.5 especializados.
  • Foi relatado que as LORAs criadas para Stable Diffusion XL funcionam bem apenas com prompts negativos genéricos.
  • Há controvérsia sobre a capacidade de ativar várias LoRAs ao mesmo tempo.
  • É reconhecido que o uso de RLHF tornou o GPT3 mais fácil de usar, e há esperança de que modelos futuros incluam resultados ruins como dados de treino negativos.
  • Foi mencionada a possibilidade de mesclar LoRAs, e há interesse em usar uma LoRA contendo temas pessoais, outra para melhorar os resultados e uma terceira para um estilo específico.