13 pontos por xguru 2024-03-06 | 1 comentários | Compartilhar no WhatsApp
  • Foi publicado um artigo de pesquisa que explora em profundidade a tecnologia por trás do Stable Diffusion 3
  • O SD3 supera sistemas de geração de texto para imagem de ponta, como DALL·E 3, Midjourney v6 e Ideogram v1, em tipografia e aderência ao prompt, com base em avaliações de preferência humana
  • A nova arquitetura Multimodal Diffusion Transformer (MMDiT) melhora a compreensão de texto e a capacidade de soletração em relação às versões anteriores do SD3 ao usar conjuntos de pesos separados para representações de imagem e linguagem

Desempenho

  • O desempenho foi avaliado com base em feedback humano, comparando as imagens geradas pelo Stable Diffusion 3 com vários modelos abertos, como SDXL, SDXL Turbo, Stable Cascade, Playground v2.5 e Pixart-α, além de sistemas de código fechado como DALL·E 3, Midjourney v6 e Ideogram v1
  • Nos testes, o Stable Diffusion 3 se mostrou equivalente ou superior aos sistemas de geração de texto para imagem mais avançados da atualidade em todas as áreas acima
  • Em testes iniciais de inferência não otimizada, o maior modelo SD3 tem 8B parâmetros, cabe nos 24GB de VRAM de uma RTX 4090 e leva 34 segundos para gerar uma imagem em resolução 1024x1024 usando 50 etapas de amostragem
  • No lançamento inicial, haverá várias variantes do Stable Diffusion 3, de modelos com 800m até 8B parâmetros, reduzindo ainda mais a barreira de hardware

Detalhes da arquitetura

  • Para geração de texto para imagem, o modelo precisa considerar ambas as modalidades: texto e imagem
  • Essa nova arquitetura é chamada de MMDiT, em referência à sua capacidade de lidar com diferentes modalidades
  • Assim como nas versões anteriores do Stable Diffusion, são usados modelos pré-treinados para derivar representações adequadas de texto e imagem
  • Como os embeddings de texto e imagem são conceitualmente muito diferentes, são usados conjuntos de pesos separados para as duas modalidades
  • Ao usar essa abordagem, a informação pode fluir entre tokens de imagem e texto, melhorando a compreensão geral e a tipografia do resultado
  • Essa arquitetura pode ser facilmente expandida para múltiplas modalidades, como vídeo

Melhoria de Rectified Flows com Reweighting

  • O Stable Diffusion 3 usa a formulação Rectified Flow (RF), que conecta dados e ruído por uma trajetória linear durante o treinamento
  • Isso cria um caminho de inferência mais reto, permitindo amostragem com menos etapas
  • Além disso, foi introduzido um novo cronograma de amostragem de trajetórias no processo de treinamento, atribuindo mais peso à parte intermediária da trajetória
  • Ao testar essa abordagem em comparação com outras trajetórias de difusão, a formulação RF anterior mostrou melhor desempenho em regimes de amostragem com poucas etapas, mas seu desempenho relativo caiu com mais etapas
  • Já a variante RF com reweighting melhorou o desempenho de forma consistente

Escalonamento do modelo Rectified Flow Transformer

  • Foi realizado um estudo de escalonamento para síntese de texto para imagem usando a formulação Rectified Flow com reweighting e o backbone MMDiT
  • Foi observada uma redução suave da perda de validação tanto no tamanho do modelo quanto nas etapas de treinamento
  • Para testar se isso se traduz em melhorias significativas na saída do modelo, foram avaliadas a métrica automática de alinhamento de imagens (GenEval) e a pontuação de preferência humana (ELO)
  • Os resultados mostram uma forte correlação entre essas métricas e a perda de validação
  • Como a tendência de escalonamento não mostra sinais de saturação, há uma perspectiva otimista de que o desempenho dos modelos possa continuar melhorando no futuro

Codificador de texto flexível

  • Para inferência, ao remover o codificador de texto T5 de 4.7B parâmetros, que consome muita memória, é possível reduzir significativamente os requisitos de memória do SD3, com perda mínima de desempenho
  • Remover esse codificador de texto não afeta a estética visual (taxa de vitória após remoção: 50%), mas reduz ligeiramente a aderência ao texto (taxa de vitória: 46%)
  • Ainda assim, incluir o T5 é recomendado para extrair todo o potencial do SD3 na geração de texto

1 comentários

 
xguru 2024-03-06

Opiniões no Hacker News

  • O compromisso da Stability AI com o open source é muito interessante, e espero que consigam continuar operando pelo maior tempo possível.

    • Fico me perguntando se o Stable Diffusion 3 ainda usa o CLIP da OpenAI para tokenização e embeddings de texto.
    • Simplesmente presumo que eles vão melhorar essa parte da arquitetura do modelo para que ela se alinhe melhor com prompts de texto e imagem.
  • A renderização de texto do Stable Diffusion 3 é impressionante, mas o texto sempre tem aquela sensação característica de processamento excessivo.

    • A cor do texto sempre fica elevada para um único valor, fazendo parecer que ele foi apenas adicionado de forma amadora a uma imagem de alta qualidade.
  • Pergunta sobre se o SD3 poderá ser baixado.

    • Executei as primeiras versões do SD localmente e elas eram muito boas.
    • Fico me perguntando se, como muitos LLMs que pareciam promissores para auto-hospedagem, ele também migrou para SaaS.
  • É muito interessante que os geradores de imagem finalmente estejam começando a implementar ortografia corretamente.

    • A capacidade de soletração do DALL-E 3 ganhou destaque, mas depois de usar o Bing, ela parece inconsistente.
    • Gostaria de ler uma explicação menos técnica sobre os desafios envolvidos em implementar ortografia corretamente e o motivo disso.
    • Fico me perguntando se o SD3 consegue limpar ou corrigir problemas de texto em imagens antigas.
  • O anúncio do SD3 é muito interessante.

    • O artigo traz muito mais detalhes do que o blog.
    • O principal ponto do artigo é mostrar uma arquitetura que pode incluir encoders de texto mais expressivos, e isso ajuda em cenas complexas.
    • Como eles ainda não chegaram ao limite dessa stack em termos de treinamento, espero que o SD3.1 melhore ainda mais, e imagino que o SD4 possa adicionar mais codificação de front-end para processamento de vídeo.
  • A melhora do SD3 na renderização de texto é boa, mas gerar mãos e dedos continua sendo difícil.

    • As imagens de exemplo não incluem mãos humanas, exceto por um mago pixelado, e as mãos do macaco parecem meio estranhas.
  • Essa arquitetura é flexível o suficiente para ser facilmente expandida para vídeo.

    • Espero que ela se torne mais um bloco "fundamental", como os blocos de transformer do LLaMA.
    • Ela é geral o bastante para integrar codificação de texto/condicionamento de timestep ao bloco de várias maneiras.
    • Quase não resta mais nada a fazer além de brincar com codificação posicional (2D RoPE?).
    • Escalar transformers e focar em quantização/otimização para fazer essa stack rodar direito em todo lugar.
  • Muitas empresas que um dia foram dedicadas ao "aberto" ou antes eram abertas estão se tornando cada vez mais fechadas.

    • Agradeço à Stability AI por publicar esses artigos de pesquisa.
  • Em contraste com a Stability AI, a OpenAI é o laboratório de IA mais fechado.

    • Até a DeepMind publica mais artigos.
    • Fico me perguntando se existe alguém dentro da OpenAI dizendo publicamente: "Estamos aqui pelo dinheiro!"
    • A carta que o SamA escreveu recentemente sobre o julgamento do Elon é tão verdadeira quanto Putin dizer que está invadindo a Ucrânia para "desnazificá-la".