StreamDiffusion: uma solução em nível de pipeline para geração interativa em tempo real
(github.com/cumulo-autumn)StreamDiffusion: uma solução em nível de pipeline para geração interativa em tempo real
-
Principais características
- Stream batch: processamento de dados simplificado por meio de operações em lote eficientes.
- Guidance sem classificação residual: mecanismo de guidance aprimorado que minimiza a redundância computacional.
- Filtro de similaridade probabilística: maior eficiência de uso da GPU por meio de técnica avançada de filtragem.
- Filas de entrada e saída: gerenciamento eficiente das tarefas de entrada e saída para dar suporte a uma execução fluida.
- Pré-cálculo para KV-cache: otimização da estratégia de cache para processamento acelerado.
- Ferramentas de aceleração de modelos: uso de várias ferramentas para otimização do modelo e melhoria de desempenho.
-
Desempenho
- GPU: RTX 4090, CPU: Core i9-13900K, SO: Ubuntu 22.04.3 LTS. Desempenho na geração de imagens usando o pipeline StreamDiffusion nesse ambiente.
- Modelo SD-turbo: no Denoising Step 1, Txt2Img 106.16fps, Img2Img 93.897fps.
- Modelo LCM-LoRA + KohakuV2: no Denoising Step 4, Txt2Img 38.023fps, Img2Img 37.133fps.
- GPU: RTX 4090, CPU: Core i9-13900K, SO: Ubuntu 22.04.3 LTS. Desempenho na geração de imagens usando o pipeline StreamDiffusion nesse ambiente.
-
Como instalar
- Configuração do ambiente: é possível instalar o StreamDiffusion via pip, conda e Docker.
- Instalação do PyTorch: instalar após selecionar a versão adequada ao sistema.
- Instalação do StreamDiffusion: métodos de instalação fornecidos para usuários e desenvolvedores.
- Instalação com Docker: instruções para compilar e executar uma imagem Docker preparada para TensorRT.
-
Início rápido
- É possível testar o StreamDiffusion no diretório
examples. - Inclui demo de Txt2Img em tempo real e exemplos de uso.
- Inclui código de exemplo para conversão de imagem para imagem e de texto para imagem.
- É possível testar o StreamDiffusion no diretório
-
Recursos opcionais
- Filtro de similaridade probabilística: recurso para reduzir a carga de processamento com entrada de vídeo.
- Residual CFG (RCFG): método com complexidade computacional competitiva em comparação com o caso sem uso de CFG.
-
Equipe de desenvolvimento
- Lista dos membros da equipe que participaram do desenvolvimento.
-
Agradecimentos
- Agradecimentos ao LCM-LoRA + KohakuV2 e ao SD-Turbo, usados na criação das demos de vídeo e imagem.
Opinião do GN⁺
- Ponto mais importante: o StreamDiffusion é um pipeline inovador para geração interativa de imagens em tempo real, oferecendo um ganho de desempenho significativo em comparação com as tecnologias existentes de geração de imagens baseadas em difusão.
- Por que é interessante: essa tecnologia permite gerar imagens de alta qualidade em tempo real, viabilizando trabalhos criativos em diversas áreas, como arte, desenvolvimento de jogos e design gráfico.
- O lado divertido: há várias formas de instalação e uso tanto para usuários quanto para desenvolvedores, e demos incluídas permitem executar o código e ver os resultados na prática, ajudando a entender melhor a tecnologia e a experimentar diretamente.
Ainda não há comentários.