- Foi publicado um artigo de pesquisa que explora em profundidade a tecnologia por trás do Stable Diffusion 3
- O SD3 supera sistemas de geração de texto para imagem de ponta, como DALL·E 3, Midjourney v6 e Ideogram v1, em tipografia e aderência ao prompt, com base em avaliações de preferência humana
- A nova arquitetura Multimodal Diffusion Transformer (MMDiT) melhora a compreensão de texto e a capacidade de soletração em relação às versões anteriores do SD3 ao usar conjuntos de pesos separados para representações de imagem e linguagem
Desempenho
- O desempenho foi avaliado com base em feedback humano, comparando as imagens geradas pelo Stable Diffusion 3 com vários modelos abertos, como SDXL, SDXL Turbo, Stable Cascade, Playground v2.5 e Pixart-α, além de sistemas de código fechado como DALL·E 3, Midjourney v6 e Ideogram v1
- Nos testes, o Stable Diffusion 3 se mostrou equivalente ou superior aos sistemas de geração de texto para imagem mais avançados da atualidade em todas as áreas acima
- Em testes iniciais de inferência não otimizada, o maior modelo SD3 tem 8B parâmetros, cabe nos 24GB de VRAM de uma RTX 4090 e leva 34 segundos para gerar uma imagem em resolução 1024x1024 usando 50 etapas de amostragem
- No lançamento inicial, haverá várias variantes do Stable Diffusion 3, de modelos com 800m até 8B parâmetros, reduzindo ainda mais a barreira de hardware
Detalhes da arquitetura
- Para geração de texto para imagem, o modelo precisa considerar ambas as modalidades: texto e imagem
- Essa nova arquitetura é chamada de MMDiT, em referência à sua capacidade de lidar com diferentes modalidades
- Assim como nas versões anteriores do Stable Diffusion, são usados modelos pré-treinados para derivar representações adequadas de texto e imagem
- Como os embeddings de texto e imagem são conceitualmente muito diferentes, são usados conjuntos de pesos separados para as duas modalidades
- Ao usar essa abordagem, a informação pode fluir entre tokens de imagem e texto, melhorando a compreensão geral e a tipografia do resultado
- Essa arquitetura pode ser facilmente expandida para múltiplas modalidades, como vídeo
Melhoria de Rectified Flows com Reweighting
- O Stable Diffusion 3 usa a formulação Rectified Flow (RF), que conecta dados e ruído por uma trajetória linear durante o treinamento
- Isso cria um caminho de inferência mais reto, permitindo amostragem com menos etapas
- Além disso, foi introduzido um novo cronograma de amostragem de trajetórias no processo de treinamento, atribuindo mais peso à parte intermediária da trajetória
- Ao testar essa abordagem em comparação com outras trajetórias de difusão, a formulação RF anterior mostrou melhor desempenho em regimes de amostragem com poucas etapas, mas seu desempenho relativo caiu com mais etapas
- Já a variante RF com reweighting melhorou o desempenho de forma consistente
Escalonamento do modelo Rectified Flow Transformer
- Foi realizado um estudo de escalonamento para síntese de texto para imagem usando a formulação Rectified Flow com reweighting e o backbone MMDiT
- Foi observada uma redução suave da perda de validação tanto no tamanho do modelo quanto nas etapas de treinamento
- Para testar se isso se traduz em melhorias significativas na saída do modelo, foram avaliadas a métrica automática de alinhamento de imagens (GenEval) e a pontuação de preferência humana (ELO)
- Os resultados mostram uma forte correlação entre essas métricas e a perda de validação
- Como a tendência de escalonamento não mostra sinais de saturação, há uma perspectiva otimista de que o desempenho dos modelos possa continuar melhorando no futuro
Codificador de texto flexível
- Para inferência, ao remover o codificador de texto T5 de 4.7B parâmetros, que consome muita memória, é possível reduzir significativamente os requisitos de memória do SD3, com perda mínima de desempenho
- Remover esse codificador de texto não afeta a estética visual (taxa de vitória após remoção: 50%), mas reduz ligeiramente a aderência ao texto (taxa de vitória: 46%)
- Ainda assim, incluir o T5 é recomendado para extrair todo o potencial do SD3 na geração de texto
1 comentários
Opiniões no Hacker News
O compromisso da Stability AI com o open source é muito interessante, e espero que consigam continuar operando pelo maior tempo possível.
A renderização de texto do Stable Diffusion 3 é impressionante, mas o texto sempre tem aquela sensação característica de processamento excessivo.
Pergunta sobre se o SD3 poderá ser baixado.
É muito interessante que os geradores de imagem finalmente estejam começando a implementar ortografia corretamente.
O anúncio do SD3 é muito interessante.
A melhora do SD3 na renderização de texto é boa, mas gerar mãos e dedos continua sendo difícil.
Essa arquitetura é flexível o suficiente para ser facilmente expandida para vídeo.
Muitas empresas que um dia foram dedicadas ao "aberto" ou antes eram abertas estão se tornando cada vez mais fechadas.
Em contraste com a Stability AI, a OpenAI é o laboratório de IA mais fechado.