Easy Stable Diffusion XL para uso offline no dispositivo
(noiselith.com)Apresentação do app Noiselith
- Ferramenta de geração de imagens offline: o Noiselith permite gerar imagens livremente no dispositivo, sem depender da nuvem.
- Proteção de privacidade: toda a geração é feita localmente, e nenhuma informação é enviada para a nuvem.
- Geração ilimitada: oferece geração ilimitada, permitindo criar 100, 200 ou até 1000 imagens por dia.
- Velocidade: permite gerar imagens imediatamente no dispositivo, sem precisar esperar por recursos de servidor.
Requisitos de sistema
- Windows: requer Windows 10 ou 11, GPU NVIDIA RTX série 20 ou superior (8 GB ou mais de VRAM), 16 GB ou mais de RAM e 20 GB ou mais de armazenamento.
- macOS: requer macOS 12.3 ou superior, Apple Silicon, 32 GB ou mais de RAM e 20 GB ou mais de armazenamento.
Experiência do usuário
- Instalação simples: o Noiselith fica pronto para uso com apenas alguns cliques.
- Uso intuitivo: oferece uma interface intuitiva para transformar ideias em imagens sem se preocupar com detalhes técnicos.
- Gerenciamento de modelos: permite baixar, excluir e atualizar modelos facilmente, além de oferecer uma galeria elegante para organizar as imagens geradas.
Roteiro de desenvolvimento
- Suporte a vários recursos: há planos para oferecer suporte a modelos SDXL, SDXL LoRA, histórico, gerenciamento de projetos e gerenciamento de modelos.
- Comunidade e expansibilidade: inclui recursos como comunidade de usuários, suporte aos modelos SD 1.5 e 2.1, banco de dados de modelos, upscaler e smart prompts.
- App Store do Noiselith: há planos para desenvolver uma app store com GPU em nuvem e recursos de colaboração remota.
Opinião do GN⁺
- O ponto mais importante deste artigo é que o app Noiselith é uma nova ferramenta que permite gerar imagens ilimitadamente no dispositivo do usuário, sem ajuda da nuvem e com proteção de privacidade.
- O app é interessante por reduzir a complexidade de instalação e uso do software e, com uma interface intuitiva, permitir que qualquer pessoa comece facilmente a gerar imagens, ajudando a focar mais no trabalho criativo.
1 comentários
Opiniões no Hacker News
Acabei de instalar e é bem legal. IA local é o futuro que eu quero, e também estou trabalhando nessa direção.
Os pontos positivos são que funciona de forma bastante independente, o instalador de modelos embutido é bem feito e facilita baixar qualquer coisa do CivitAI (testei instalando https://civitai.com/models/183354/sdxl-ms-paint-portraits), a qualidade de geração de imagens é alta e estável, e ele mostra as etapas intermediárias da geração.
O ponto negativo é que ele baixa um arquivo de modelo SDXL de 6,94 GB em algum lugar sem perguntar, nem mostrar o local ou o tamanho; depois descobri que dá para encontrar e alterar o local nas configurações. A primeira geração é muito lenta por causa do carregamento do modelo, e o tempo de geração não é registrado, mas em um MacBook M1 Max com 64 GB parece levar alguns minutos.
Há vários módulos de feedback, então o chat no canto inferior esquerdo incomoda bastante e acho que nunca vou usar; no canto superior direito também há um pedido de feedback da beta. Ao contrário dos concorrentes, não é open source, há 7 processos rodando e, em estado ocioso, usa cerca de 1 GB de RAM. Não tem UX nativa do macOS e faltam atalhos e menu de ajuda esperados, então parece um app Electron. No geral, dou 4/5 e pretendo abrir de novo.
Então, sim. É um app Electron e usa Svelte, headless-ui, tailwindcss etc.
Já existem muitas opções de inferência local, e o ponto importante é que são open source e têm recursos mais robustos.
Mesmo que a defesa aqui seja “mas o Auto1111 ou o Comfy não têm uma UI amigável”, isso também já foi resolvido: https://github.com/invoke-ai/InvokeAI
Também dá para organizar em boards, e boards, imagens e metadados ficam todos armazenados em um banco SQLite bem projetado, acessível pelo DataGrip.
Recomendo muito o Fooocus para quem ainda não experimentou: https://github.com/lllyasviel/Fooocus
Existem pipelines locais de Stable Diffusion aos montes, mas este tem uma qualidade de saída padrão absurdamente boa mesmo com prompts curtos. É realmente impressionante.
O motivo é que ele integra uma série de recursos de aprimoramento do SDXL que outras UIs não implementam ou não ativam por padrão. Uso desde a época do Stable Diffusion 1.5 e acompanho bastante essa área, mas configurar um pipeline equivalente no ComfyUI, e muito menos no diffusers, parece que seria um sofrimento. Dá a sensação de ser uma “coletânea de hits e melhores padrões” para SDXL.
Mas, como dito no comentário ao lado, embutir GTM não pega bem.
Exemplos:
https://imgz.org/i9oicVqo/
https://imgz.org/i8Ur3WjW/
https://imgz.org/i5j6r6TZ/
Gostaria que todo o nosso setor percebesse que usar esse tipo de vigilância é uma má escolha e simplesmente parasse.
Interessante. Vou comparar com o https://diffusionbee.com, que tenho usado por diversão nos últimos meses.
Pode até ser bom para marketing, mas é estranho apresentar execução no próprio dispositivo e offline como o principal diferencial. Isso porque é bem provável que a maioria já use Stable Diffusion desse jeito
Acho que seria melhor focar mais no fato de ser fácil de instalar e usar. Essa ainda é uma parte que não funciona tão bem. Para mim, se não tiver ControlNet, upscaling, recursos tipo detalhamento de rosto e, se possível, prompting por região, eu nem uso
Também penso que seria bom se as pessoas que querem criar seu próprio gerador de SD contribuíssem para algum dos projetos open source que já existem
Uma app store pode até ser uma boa ideia, mas em um mundo com Auto1111 e suas incontáveis extensões, não acho que a comunidade de Stable Diffusion vá reagir bem
Mesmo que não seja atraente para usuários atuais, um produto mais simples pode apelar bastante para novos usuários
Quando comecei a mexer com SD, achei estranho que, em vez de simplesmente baixar alguns arquivos e executar, havia muitos pacotes que usavam coisas com telemetria pesada ou VMs
O prompt usado para vender o produto é “uma jovem mulher loira de cabelo cacheado, com olhar sedutor diante de um cenário de mundo fantástico, sentada de pernas abertas usando uma camisa branca e short jeans curto”
Fico realmente me perguntando se isso faz sentido
Depois de instalar, para executar em uma máquina Windows, foi preciso conceder permissão de acesso a redes públicas e privadas. Como diziam que era “offline”, isso me incomodou um pouco
Na primeira execução, ele baixou cerca de 30 GB de dados. Não sei se nas execuções seguintes ele funciona offline. No meu caso, depois disso ele continuou travando e não abriu mais
Na desinstalação, também deixou todos os dados para trás. Não eram dados de usuário, mas o próprio executável, o ambiente virtual Python, o atualizador e todos os modelos. A desinstalação basicamente só removeu o atalho do menu Iniciar
Se for necessária uma conexão ativa com a internet para executar, anunciar como “offline” é totalmente errado
É certamente bom ver mais clientes locais surgindo. Como já foi mencionado em outros comentários, já existem algumas opções excelentes. Usei o automatic1111; ele é rápido e não exige muita configuração, mas ainda tem muitos controles e opções, então parece difícil no começo. O Fooocus é muito rápido, mas naturalmente tem menos customização
E há o ComfyUI. É como o santo graal da complexidade, mas essa complexidade permite fazer muita coisa. Por ser um app baseado em nós, dá para criar workflows personalizados e, depois que a imagem é gerada, enviar esse “nó” para outro lugar para fazer pós-processamento, como upscaling
Quero ver se o Noiselith ou outras ferramentas vão dar suporte ao SDXLTurbo. Ele foi lançado há poucos dias, mas na minha opinião muda completamente o jogo. Em uma GPU de consumidor, dá para gerar uma imagem 512x512 em cerca de 0,5 segundo. A qualidade não é incrível, mas a capacidade de digitar “uma raposa na floresta” e ver imediatamente, depois adicionar “usando um chapéu” e gerar de novo imediatamente, é muito valiosa. Antes, eu esperava 12 segundos por imagem. Parece pouca coisa, mas poder iterar tão rapidamente torna a geração local de imagens muito mais divertida
Ainda não consegui testar, mas estou usando CoreML no Comfy, então fico curioso se, quando surgirem front-ends mais úteis, também haverá mais trabalho de otimização de backend e desempenho nessas plataformas
1–4 it/s em imagens 512 é decepcionante demais, e 2–3 s/it em 1024 também é lento demais para os padrões atuais. É uma pena que nem mesmo o ANE consiga rodar imagens SD 1024x1024 em um MacBook Pro M3