Artigo de pesquisa sobre o Stable Diffusion 3 é divulgado

xguru · 2024-03-06T10:46:01+09:00

Foi publicado um artigo de pesquisa que explora em profundidade a tecnologia por trás do Stable Diffusion 3 O SD3 supera sistemas de geração de texto para imagem de ponta, como DALL·E 3, Midjourney v6 e Ideogram v1, em tipografia e aderência ao prompt, com base em avaliações de preferência humana A nova arquitetura Multimodal Diffusion Transformer (MMDiT) melhora a compreensão de texto e a capacidade de soletração em relação às versões anteriores do SD3 ao usar conjuntos de pesos separados para representações de imagem e linguagem Desempenho O desempenho foi avaliado com base em feedback humano, comparando as imagens geradas pelo Stable Diffusion 3 com vários modelos abertos, como SDXL, SDXL Turbo, Stable Cascade, Playground v2.5 e Pixart-α, além de sistemas de código fechado como DALL·E 3, Midjourney v6 e Ideogram v1 Nos testes, o Stable Diffusion 3 se mostrou equivalente ou superior aos sistemas de geração de texto para imagem mais avançados da atualidade em todas as áreas acima Em testes iniciais de inferência não otimizada, o maior modelo SD3 tem 8B parâmetros, cabe nos 24GB de VRAM de uma RTX 4090 e leva 34 segundos para gerar uma imagem em resolução 1024x1024 usando 50 etapas de amostragem No lançamento inicial, haverá várias variantes do Stable Diffusion 3, de modelos com 800m até 8B parâmetros, reduzindo ainda mais a barreira de hardware Detalhes da arquitetura Para geração de texto para imagem, o modelo precisa considerar ambas as modalidades: texto e imagem Essa nova arquitetura é chamada de MMDiT, em referência à sua capacidade de lidar com diferentes modalidades Assim como nas versões anteriores do Stable Diffusion, são usados modelos pré-treinados para derivar representações adequadas de texto e imagem Como os embeddings de texto e imagem são conceitualmente muito diferentes, são usados conjuntos de pesos separados para as duas modalidades Ao usar essa abordagem, a informação pode fluir entre tokens de imagem e texto, melhorando a compreensão geral e a tipografia do resultado Essa arquitetura pode ser facilmente expandida para múltiplas modalidades, como vídeo Melhoria de Rectified Flows com Reweighting O Stable Diffusion 3 usa a formulação Rectified Flow (RF), que conecta dados e ruído por uma trajetória linear durante o treinamento Isso cria um caminho de inferência mais reto, permitindo amostragem com menos etapas Além disso, foi introduzido um novo cronograma de amostragem de trajetórias no processo de treinamento, atribuindo mais peso à parte intermediária da trajetória Ao testar essa abordagem em comparação com outras trajetórias de difusão, a formulação RF anterior mostrou melhor desempenho em regimes de amostragem com poucas etapas, mas seu desempenho relativo caiu com mais etapas Já a variante RF com reweighting melhorou o desempenho de forma consistente Escalonamento do modelo Rectified Flow Transformer Foi realizado um estudo de escalonamento para síntese de texto para imagem usando a formulação Rectified Flow com reweighting e o backbone MMDiT Foi observada uma redução suave da perda de validação tanto no tamanho do modelo quanto nas etapas de treinamento Para testar se isso se traduz em melhorias significativas na saída do modelo, foram avaliadas a métrica automática de alinhamento de imagens (GenEval) e a pontuação de preferência humana (ELO) Os resultados mostram uma forte correlação entre essas métricas e a perda de validação Como a tendência de escalonamento não mostra sinais de saturação, há uma perspectiva otimista de que o desempenho dos modelos possa continuar melhorando no futuro Codificador de texto flexível Para inferência, ao remover o codificador de texto T5 de 4.7B parâmetros, que consome muita memória, é possível reduzir significativamente os requisitos de memória do SD3, com perda mínima de desempenho Remover esse codificador de texto não afeta a estética visual (taxa de vitória após remoção: 50%), mas reduz ligeiramente a aderência ao texto (taxa de vitória: 46%) Ainda assim, incluir o T5 é recomendado para extrair todo o potencial do SD3 na geração de texto

(stability.ai)

13 pontos por xguru 2024-03-06 | 1 comentários | Compartilhar no WhatsApp

Foi publicado um artigo de pesquisa que explora em profundidade a tecnologia por trás do Stable Diffusion 3
O SD3 supera sistemas de geração de texto para imagem de ponta, como DALL·E 3, Midjourney v6 e Ideogram v1, em tipografia e aderência ao prompt, com base em avaliações de preferência humana
A nova arquitetura Multimodal Diffusion Transformer (MMDiT) melhora a compreensão de texto e a capacidade de soletração em relação às versões anteriores do SD3 ao usar conjuntos de pesos separados para representações de imagem e linguagem

Desempenho

O desempenho foi avaliado com base em feedback humano, comparando as imagens geradas pelo Stable Diffusion 3 com vários modelos abertos, como SDXL, SDXL Turbo, Stable Cascade, Playground v2.5 e Pixart-α, além de sistemas de código fechado como DALL·E 3, Midjourney v6 e Ideogram v1
Nos testes, o Stable Diffusion 3 se mostrou equivalente ou superior aos sistemas de geração de texto para imagem mais avançados da atualidade em todas as áreas acima
Em testes iniciais de inferência não otimizada, o maior modelo SD3 tem 8B parâmetros, cabe nos 24GB de VRAM de uma RTX 4090 e leva 34 segundos para gerar uma imagem em resolução 1024x1024 usando 50 etapas de amostragem
No lançamento inicial, haverá várias variantes do Stable Diffusion 3, de modelos com 800m até 8B parâmetros, reduzindo ainda mais a barreira de hardware

Detalhes da arquitetura

Para geração de texto para imagem, o modelo precisa considerar ambas as modalidades: texto e imagem
Essa nova arquitetura é chamada de MMDiT, em referência à sua capacidade de lidar com diferentes modalidades
Assim como nas versões anteriores do Stable Diffusion, são usados modelos pré-treinados para derivar representações adequadas de texto e imagem
Como os embeddings de texto e imagem são conceitualmente muito diferentes, são usados conjuntos de pesos separados para as duas modalidades
Ao usar essa abordagem, a informação pode fluir entre tokens de imagem e texto, melhorando a compreensão geral e a tipografia do resultado
Essa arquitetura pode ser facilmente expandida para múltiplas modalidades, como vídeo

Melhoria de Rectified Flows com Reweighting

O Stable Diffusion 3 usa a formulação Rectified Flow (RF), que conecta dados e ruído por uma trajetória linear durante o treinamento
Isso cria um caminho de inferência mais reto, permitindo amostragem com menos etapas
Além disso, foi introduzido um novo cronograma de amostragem de trajetórias no processo de treinamento, atribuindo mais peso à parte intermediária da trajetória
Ao testar essa abordagem em comparação com outras trajetórias de difusão, a formulação RF anterior mostrou melhor desempenho em regimes de amostragem com poucas etapas, mas seu desempenho relativo caiu com mais etapas
Já a variante RF com reweighting melhorou o desempenho de forma consistente

Escalonamento do modelo Rectified Flow Transformer

Foi realizado um estudo de escalonamento para síntese de texto para imagem usando a formulação Rectified Flow com reweighting e o backbone MMDiT
Foi observada uma redução suave da perda de validação tanto no tamanho do modelo quanto nas etapas de treinamento
Para testar se isso se traduz em melhorias significativas na saída do modelo, foram avaliadas a métrica automática de alinhamento de imagens (GenEval) e a pontuação de preferência humana (ELO)
Os resultados mostram uma forte correlação entre essas métricas e a perda de validação
Como a tendência de escalonamento não mostra sinais de saturação, há uma perspectiva otimista de que o desempenho dos modelos possa continuar melhorando no futuro

Codificador de texto flexível

Para inferência, ao remover o codificador de texto T5 de 4.7B parâmetros, que consome muita memória, é possível reduzir significativamente os requisitos de memória do SD3, com perda mínima de desempenho
Remover esse codificador de texto não afeta a estética visual (taxa de vitória após remoção: 50%), mas reduz ligeiramente a aderência ao texto (taxa de vitória: 46%)
Ainda assim, incluir o T5 é recomendado para extrair todo o potencial do SD3 na geração de texto

1 comentários

xguru 2024-03-06

Opiniões no Hacker News

O compromisso da Stability AI com o open source é muito interessante, e espero que consigam continuar operando pelo maior tempo possível.
- Fico me perguntando se o Stable Diffusion 3 ainda usa o CLIP da OpenAI para tokenização e embeddings de texto.
- Simplesmente presumo que eles vão melhorar essa parte da arquitetura do modelo para que ela se alinhe melhor com prompts de texto e imagem.
A renderização de texto do Stable Diffusion 3 é impressionante, mas o texto sempre tem aquela sensação característica de processamento excessivo.
- A cor do texto sempre fica elevada para um único valor, fazendo parecer que ele foi apenas adicionado de forma amadora a uma imagem de alta qualidade.
Pergunta sobre se o SD3 poderá ser baixado.
- Executei as primeiras versões do SD localmente e elas eram muito boas.
- Fico me perguntando se, como muitos LLMs que pareciam promissores para auto-hospedagem, ele também migrou para SaaS.
É muito interessante que os geradores de imagem finalmente estejam começando a implementar ortografia corretamente.
- A capacidade de soletração do DALL-E 3 ganhou destaque, mas depois de usar o Bing, ela parece inconsistente.
- Gostaria de ler uma explicação menos técnica sobre os desafios envolvidos em implementar ortografia corretamente e o motivo disso.
- Fico me perguntando se o SD3 consegue limpar ou corrigir problemas de texto em imagens antigas.
O anúncio do SD3 é muito interessante.
- O artigo traz muito mais detalhes do que o blog.
- O principal ponto do artigo é mostrar uma arquitetura que pode incluir encoders de texto mais expressivos, e isso ajuda em cenas complexas.
- Como eles ainda não chegaram ao limite dessa stack em termos de treinamento, espero que o SD3.1 melhore ainda mais, e imagino que o SD4 possa adicionar mais codificação de front-end para processamento de vídeo.
A melhora do SD3 na renderização de texto é boa, mas gerar mãos e dedos continua sendo difícil.
- As imagens de exemplo não incluem mãos humanas, exceto por um mago pixelado, e as mãos do macaco parecem meio estranhas.
Essa arquitetura é flexível o suficiente para ser facilmente expandida para vídeo.
- Espero que ela se torne mais um bloco "fundamental", como os blocos de transformer do LLaMA.
- Ela é geral o bastante para integrar codificação de texto/condicionamento de timestep ao bloco de várias maneiras.
- Quase não resta mais nada a fazer além de brincar com codificação posicional (2D RoPE?).
- Escalar transformers e focar em quantização/otimização para fazer essa stack rodar direito em todo lugar.
Muitas empresas que um dia foram dedicadas ao "aberto" ou antes eram abertas estão se tornando cada vez mais fechadas.
- Agradeço à Stability AI por publicar esses artigos de pesquisa.
Em contraste com a Stability AI, a OpenAI é o laboratório de IA mais fechado.
- Até a DeepMind publica mais artigos.
- Fico me perguntando se existe alguém dentro da OpenAI dizendo publicamente: "Estamos aqui pelo dinheiro!"
- A carta que o SamA escreveu recentemente sobre o julgamento do Elon é tão verdadeira quanto Putin dizer que está invadindo a Ucrânia para "desnazificá-la".