Explicação detalhada do processo usado em Tales of Syn( https://www.youtube.com/watch?v=ejw6OI4_lJw ) para criar os cenários de um RPG 2D isométrico (popularmente chamado de quarter view) com Stable Diffusion.
Ferramentas usadas:
- Stable Diffusion v1.5
- Automatic1111 WebUI
- Alpaca Photoshop Plugin
- Boosting Monocular Depth
- Substance Designer
- Unity URP
- Amplify Shader Editor
No início, o step count foi definido baixo e os resultados não ficaram bons, mas ao aumentar o step count para a faixa dos 100 e aplicar CFG (classifier free guidance) de 15 a 30, foram obtidos resultados mais interessantes.
As imagens geradas foram editadas no Photoshop, e a resolução foi aumentada com um plugin de Stable Diffusion chamado Alpaca.
Para remover a iluminação existente e adicionar a iluminação desejada, era necessário um normal map da cena 2D; para isso, a geração do depth map da imagem foi automatizada usando MiDaS e LeRes do Boosting Monocular Depth.
Os depth maps gerados pelo MiDaS e as imagens com depth map invertido do LeRes foram convertidos em normal maps no Substance Designer com o nó Height to Normal World Units, e depois combinados com o nó Normal Blend.
Foi feita uma tentativa de adicionar uma sutil perspectiva falsa em 3D ao movimento da câmera usando depth maps e normal maps em um shader customizado de Unity URP criado no Amplify Shader Editor, por meio de parallax occlusion mapping, mas como a profundidade não era precisa na visão isométrica, o resultado não ficou muito bom.
Também foi implementado sombreamento por normal mapping para adicionar sombras de directional light, mas isso não foi adequado como iluminação real. Há potencial de uso como um passe de iluminação customizado para tratar o sombreamento de personagens 3D.
Uma imagem 2K foi dividida em quatro partes, e cada uma teve a resolução aumentada no img2img com o mesmo prompt usado no início, mas surgiu o problema de as bordas não se conectarem entre si. No fim, usando o mesmo processo, foram criadas imagens para conectar as partes já ampliadas, e tudo foi unido no Photoshop para finalmente gerar uma imagem 4K.
GeekNews relacionado:
https://pt.news.hada.io/topic?id=7206
1 comentários
O desenvolvedor também compartilhou os outros processos de desenvolvimento:
Criando modelos 3D de personagens com Stable Diffusion:
https://talesofsyn.com/posts/creating-3d-character-models
Ajustando finamente um modelo DreamBooth em estilo isométrico:
https://talesofsyn.com/posts/fine-tuning-isometric-style