Apresentando no HN: geração de imagens em tempo real com SDXL Lightning

(fastsdxl.ai)

1 pontos por GN⁺ 2024-02-23 | 1 comentários | Compartilhar no WhatsApp

1 comentários

GN⁺ 2024-02-23

Opiniões do Hacker News

Ontem usei isso junto com o Groq para incrementar o jogo de diversão infinita do Neal Agrawal como uma extensão do Chrome, fazendo com que ele gerasse imagens reais, não apenas emojis
Geração de imagens quase em tempo real e geração por LLM parecem coisa do futuro. Usei o Mixtral da Groq para escrever os prompts e a API da Fal para a geração em tempo real
https://x.com/altryne/status/1760561501096575401?s=20
- Seria legal transformar isso em um jogo de rolagem lateral, em que, conforme se avança, o fundo vá fazendo uma transição gradual e natural para renderizações das palavras abordadas
  Imagino a paisagem azul do começo da demo mudando lentamente para o terreno montanhoso árido das imagens posteriores, com um novo personagem aparecendo em primeiro plano
- Fico curioso se daria para transformar em um jogo baseado em cartas
- Parece muito bom. Fico curioso se há alguma chance de compartilharem a extensão do Chrome
Só para registro, o SDXL Lightning é open source e foi publicado no Hugging Face sob uma licença relativamente permissiva: https://huggingface.co/ByteDance/SDXL-Lightning
Também há algumas outras UIs. Por exemplo: https://replicate.com/lucataco/sdxl-lightning-4step
- Sim. Por dentro, usa o SDXL Lightning, que a ByteDance treinou em cima do Stable Diffusion XL e publicou como open source
  Somamos a isso nosso próprio motor de inferência e infraestrutura em tempo real para oferecer uma experiência mais fluida do que outras UIs. Em termos de velocidade, acho que quase não há comparação: aqui, 4 etapas levam cerca de 370 ms, enquanto o exemplo do Replicate linkado fica na casa de 2 a 3 segundos
- Também fiz uma demo com Gradio, mas ela é 2x mais lenta que a fal.ai. Uso compilação stable-fast em uma única A10G
  https://huggingface.co/spaces/radames/Real-Time-Text-to-Imag...
  Se você tiver GPU/CUDA/Docker, também pode rodar localmente
  docker run -it -p 7860:7860 --platform=linux/amd64 --gpus all -e SFAST_COMPILE="1" -e USE_TAESD="0" registry.hf.space/radames-real-time-text-to-image-sdxl-lightning:latest python app.py
- Fico curioso sobre qual é o uso de memória e a velocidade na inferência local
A velocidade é excelente
Quanto à qualidade, peguei emprestado o prompt que as pessoas usaram hoje para testar o Stable Diffusion 3 e outros modelos: "Photo of a red sphere on top of a blue cube. Behind them is a green triangle, on the right is a dog, on the left is a cat"
O resultado que obtive foi este: https://imgur.com/a/XrAuqCB
Comparando com o Stable Diffusion 3: https://pbs.twimg.com/media/GG8mm5va4AA_5PJ?format=jpg&name=...
1. https://news.ycombinator.com/item?id=39467526
- Aderência a prompts espaciais é algo que, de modo geral, falta no SDXL e nas gerações anteriores do Stable Diffusion. Espero que o Stable Diffusion refine bem essa parte, como no exemplo
  Também testei o mesmo exemplo no Stable Cascade, o modelo mais recente da Stability com pesos públicos, e também não ficou lá muito bom: https://fal.ai/models/stable-cascade?share=eab44060-690b-497...
- O resultado que obtive é bastante preciso: https://imgur.com/a/vH0zq5b
  seed: 3919562
- Se você rodar mudando a seed, os resultados variam bastante
A demo é realmente impressionante, mas acho que teria sido muito mais surpreendente se fosse mais suave. Do jeito que está, por exemplo, ao apagar uma palavra ou adicionar um espaço, a inferência acontece 4 vezes em pouco tempo e fica uma sensação de engasgo
Pode ser que estejam mostrando intencionalmente os resultados de cada etapa. Para referência, esta é uma demo da fal.ai, e fiquei sabendo deles pela primeira vez na manhã em que publicaram a demo no dia em que o Stable Cascade foi lançado
Se você vai rodar inferência fora da OpenAI, recomendo fortemente a fal.ai. Estou no setor de IA há quase 3 anos e, desde o ano passado, tenho acompanhado praticamente 24 horas por dia; a Fal parece ser o primeiro serviço que cuida dos detalhes para chegar a esse nível de velocidade no uso real, não apenas em números de artigo
Por exemplo, coisas como conexões WebSocket e JWTs de curta duração que evitam precisar passar por uma função de edge para assinar requisições com uma chave de API
- Se é tão rápido assim, talvez seja melhor gerar imagens intermediárias seguindo um caminho suave no espaço latente, em vez de pular direto para a imagem-alvo
Gostei muito desta demo. É acessível, rápida e intuitiva. É surpreendente conseguir obter esse nível de qualidade com tanta facilidade
- Esta demo e a Groq foram realmente impressionantes. Até pouco tempo atrás, eu ainda me lembrava de esperar um tempão para receber uma imagem toda quebrada em sites que davam algo como 20 gerações gratuitas ao criar uma conta
  Agora é incrível poder entrar em um site e fazer geração de texto e imagem em velocidade relâmpago, sem cadastro nem CAPTCHA. Especialmente considerando que a Groq e a fal.ai conseguem deixar a demo totalmente aberta, eu não esperava esse salto de desempenho no início de 2024
  Acho que a geração rápida também compensa bastante as desvantagens na qualidade da imagem. Mesmo quando falha, um bom resultado geralmente está a apenas uma seed ou um pequeno ajuste de prompt de distância
Fico curioso para saber como isso pode ser tão rápido. E não sei o que são essas imagens blob:[https://blbahblah](<https://blbahblah>;)
Além disso, se você muda um pouco o prompt, o guaxinim tende a ficar com duas caudas
- Respondendo à segunda pergunta: isso é uma URL de objeto
  https://developer.mozilla.org/en-US/docs/Web/API/URL/createO...
  É uma forma de transformar um arquivo ou Blob em uma URL que pode ser usada em um elemento de imagem, entre outros
- É uma URL temporária que representa um buffer do JavaScript: https://developer.mozilla.org/en-US/docs/Web/API/URL/createO...
Realmente impressionante. A redução de latência tem um grande impacto na forma como interagimos com ferramentas desse tipo
A vantagem de velocidade aqui vai além de simplesmente gerar mais imagens: ela permite manter o mesmo fluxo de pensamento sem interrupção enquanto você faz várias tentativas
É realmente impressionante, mas fico curioso se alguém sabe como gerar personagens consistentes com Stable Diffusion
Se o primeiro prompt for uma menina conversando com um gato, e o segundo prompt for a menina brincando com esse gato, eu gostaria que a menina e o gato parecessem os mesmos nas duas imagens
Se for possível, links ou tutoriais relacionados seriam de grande ajuda
- Pelo que me lembro, o Dashtoon Studio permite criar quadrinhos com personagens consistentes usando Stable Diffusion: https://dashtoon.com/create
- Dá para fazer no Dashtoon Studio. Mesmo enviando apenas uma imagem, ele treina uma LoRA de personagem consistente. É um software para criação de quadrinhos com IA, e encontrei este vídeo no YouTube: https://www.youtube.com/watch?v=EEQwEvKQGvE
  LoRA costuma ser a opção mais versátil, porque permite obter o personagem de forma consistente nas poses e ângulos de câmera que você quiser. O IP-Adapter replica características demais da imagem de entrada, e é difícil escolher elementos que não devem ser replicados, como a pose. Por isso, pode ficar difícil fazer o personagem de uma imagem de retrato realizar outras ações
  O Reactor precisa de uma imagem gerada na qual o rosto será trocado. Funciona bem em imagens realistas, mas em imagens estilizadas o estilo não é preservado e o formato do cabelo também não é copiado
  Entre o que encontrei até agora, o Dashtoon foi o mais estável e fácil. Também é difícil reunir 20 novas imagens de um personagem, e em um conjunto de treinamento de LoRA atributos das imagens, como a quantidade de close-ups ou de expressões faciais, importam bastante
- Vale a pena conferir https://scenario.gg. Dá para treinar sua própria LoRA com imagens personalizadas do personagem, e para obter boa consistência são necessárias cerca de 20 imagens de ângulos diferentes
  Um método mais simples, mas ainda bastante bom, é o IP-Adapter, que esse serviço também oferece. Acho que manter o gato consistente sem uma LoRA personalizada seria difícil. Referência: https://help.scenario.com/training-a-character-lora
- Normalmente, só usar um nome já é suficiente. Em bons modelos de SD, Maria Smith quase sempre parece Maria Smith
- O Mickey parece bastante consistente: https://fastsdxl.ai/share/4us7hrp3jm20
O comportamento ao inserir uma única letra é interessante. No meu caso, parece convergir com frequência para prédios pequenos e bem detalhados
Quanto mais você repete a mesma letra, por exemplo 11111111 em vez de 111, mais estranho o prédio fica. Agora percebo que parece ser bastante sensível à seed
- Palavras ou conceitos desconhecidos praticamente não afetam a saída. Se você trocar baby raccoon por maxolhx no prompt, ele ignora essa palavra e renderiza um padre italiano
  A rigor, ainda há influência, mas não de uma forma que possamos explicar facilmente. É quase como brincar com a seed
Gostei muito. Seria ótimo se fosse possível compartilhar URLs
late 90s movie poster, 24 hour clock movie "2: Electric Boogaloo" dan aykroyd1
O resultado desse prompt ficou excelente
- Uma pessoa comum fica assim: https://fastsdxl.ai/share/1mb3d5lo5ic9
  Um herói fica assim: https://fastsdxl.ai/share/x9jxax4pnljd
  Um terrorista fica assim: https://fastsdxl.ai/share/ejtyvv9ahpfs
  A pessoa que eu quero ser fica assim: https://fastsdxl.ai/share/8ekkecm5rqsr
  Graças à velocidade, dá para avaliar rapidamente o viés embutido apenas mudando a seed, o que é muito interessante
- Acabei de adicionar o recurso de compartilhamento. Seria bom saber o que você está criando
- Acho que teria sido possível compartilhar se a seed fosse fornecida

Apresentando no HN: geração de imagens em tempo real com SDXL Lightning

Leituras relacionadas

1 comentários

Opiniões do Hacker News