Easy Stable Diffusion XL para uso offline no dispositivo

(noiselith.com)

2 pontos por GN⁺ 2023-12-03 | 1 comentários | Compartilhar no WhatsApp

Apresentação do app Noiselith

Ferramenta de geração de imagens offline: o Noiselith permite gerar imagens livremente no dispositivo, sem depender da nuvem.
Proteção de privacidade: toda a geração é feita localmente, e nenhuma informação é enviada para a nuvem.
Geração ilimitada: oferece geração ilimitada, permitindo criar 100, 200 ou até 1000 imagens por dia.
Velocidade: permite gerar imagens imediatamente no dispositivo, sem precisar esperar por recursos de servidor.

Requisitos de sistema

Windows: requer Windows 10 ou 11, GPU NVIDIA RTX série 20 ou superior (8 GB ou mais de VRAM), 16 GB ou mais de RAM e 20 GB ou mais de armazenamento.
macOS: requer macOS 12.3 ou superior, Apple Silicon, 32 GB ou mais de RAM e 20 GB ou mais de armazenamento.

Experiência do usuário

Instalação simples: o Noiselith fica pronto para uso com apenas alguns cliques.
Uso intuitivo: oferece uma interface intuitiva para transformar ideias em imagens sem se preocupar com detalhes técnicos.
Gerenciamento de modelos: permite baixar, excluir e atualizar modelos facilmente, além de oferecer uma galeria elegante para organizar as imagens geradas.

Roteiro de desenvolvimento

Suporte a vários recursos: há planos para oferecer suporte a modelos SDXL, SDXL LoRA, histórico, gerenciamento de projetos e gerenciamento de modelos.
Comunidade e expansibilidade: inclui recursos como comunidade de usuários, suporte aos modelos SD 1.5 e 2.1, banco de dados de modelos, upscaler e smart prompts.
App Store do Noiselith: há planos para desenvolver uma app store com GPU em nuvem e recursos de colaboração remota.

Opinião do GN⁺

O ponto mais importante deste artigo é que o app Noiselith é uma nova ferramenta que permite gerar imagens ilimitadamente no dispositivo do usuário, sem ajuda da nuvem e com proteção de privacidade.
O app é interessante por reduzir a complexidade de instalação e uso do software e, com uma interface intuitiva, permitir que qualquer pessoa comece facilmente a gerar imagens, ajudando a focar mais no trabalho criativo.

1 comentários

GN⁺ 2023-12-03

Opiniões no Hacker News

Acabei de instalar e é bem legal. IA local é o futuro que eu quero, e também estou trabalhando nessa direção.
Os pontos positivos são que funciona de forma bastante independente, o instalador de modelos embutido é bem feito e facilita baixar qualquer coisa do CivitAI (testei instalando https://civitai.com/models/183354/sdxl-ms-paint-portraits), a qualidade de geração de imagens é alta e estável, e ele mostra as etapas intermediárias da geração.
O ponto negativo é que ele baixa um arquivo de modelo SDXL de 6,94 GB em algum lugar sem perguntar, nem mostrar o local ou o tamanho; depois descobri que dá para encontrar e alterar o local nas configurações. A primeira geração é muito lenta por causa do carregamento do modelo, e o tempo de geração não é registrado, mas em um MacBook M1 Max com 64 GB parece levar alguns minutos.
Há vários módulos de feedback, então o chat no canto inferior esquerdo incomoda bastante e acho que nunca vou usar; no canto superior direito também há um pedido de feedback da beta. Ao contrário dos concorrentes, não é open source, há 7 processos rodando e, em estado ocioso, usa cerca de 1 GB de RAM. Não tem UX nativa do macOS e faltam atalhos e menu de ajuda esperados, então parece um app Electron. No geral, dou 4/5 e pretendo abrir de novo.
- No macOS, também vale conferir o Draw Things. SDXL roda bem o suficiente até em aparelhos macOS com 8 GiB.
- Se estiver curioso sobre a stack técnica, está aqui: https://noiselith.notion.site/License-61290d5ed7ab4c918402fd2510533a9b
  Então, sim. É um app Electron e usa Svelte, headless-ui, tailwindcss etc.
- É necessário fazer ele perguntar o local do download.
- Outra desvantagem é que só funciona em Macs com Apple Silicon.
- Fico curioso se esse 1 GB de memória ociosa é por processo ou a soma total dos 7 processos.
Já existem muitas opções de inferência local, e o ponto importante é que são open source e têm recursos mais robustos.
Mesmo que a defesa aqui seja “mas o Auto1111 ou o Comfy não têm uma UI amigável”, isso também já foi resolvido: https://github.com/invoke-ai/InvokeAI
- Migrei para o InvokeAI e acho que não volto para a webui básica do a1111. Gosto do layout geral, ele tem recursos de workflow, e é fácil recarregar todos os atributos usados para criar uma imagem, como prompt, modelo e LoRA.
  Também dá para organizar em boards, e boards, imagens e metadados ficam todos armazenados em um banco SQLite bem projetado, acessível pelo DataGrip.
- Também existe a opção de usar o Krita com um plugin de IA de difusão: https://github.com/Acly/krita-ai-diffusion
- O slogan “executar Stable Diffusion localmente” soa meio estranho. Sinceramente, porque isso já é algo fácil de fazer.
- Não sei se a UI é amigável, mas só o processo de instalação do InvokeAI já é uma barreira para 99,9% do mundo. Isso não quer dizer que o Noiselith não possa ser open source, mas ele claramente oferece algo diferente do InvokeAI.
Recomendo muito o Fooocus para quem ainda não experimentou: https://github.com/lllyasviel/Fooocus
Existem pipelines locais de Stable Diffusion aos montes, mas este tem uma qualidade de saída padrão absurdamente boa mesmo com prompts curtos. É realmente impressionante.
O motivo é que ele integra uma série de recursos de aprimoramento do SDXL que outras UIs não implementam ou não ativam por padrão. Uso desde a época do Stable Diffusion 1.5 e acompanho bastante essa área, mas configurar um pipeline equivalente no ComfyUI, e muito menos no diffusers, parece que seria um sofrimento. Dá a sensação de ser uma “coletânea de hits e melhores padrões” para SDXL.
- Eu tinha medo da configuração do Python, mesmo sendo desenvolvedor Python. Ainda assim, basta criar um ambiente virtual e instalar as dependências. É realmente incrível, e as imagens geradas já saem bonitas.
  Mas, como dito no comentário ao lado, embutir GTM não pega bem.
  Exemplos:
  https://imgz.org/i9oicVqo/
  https://imgz.org/i8Ur3WjW/
  https://imgz.org/i5j6r6TZ/
- A instalação auto-hospedada da web UI do Fooocus parece vender os usuários para o Google Tag Manager.
  Gostaria que todo o nosso setor percebesse que usar esse tipo de vigilância é uma má escolha e simplesmente parasse.
- No Mac é preciso compilar por conta própria, e todo mundo sabe como é “divertido” compilar projetos Python.
- Se você quer os melhores resultados de geração local, o Fooocus é muito melhor. Lvmin está colocando toda a energia em criar imagens bonitas. O fato de ser licenciado sob GPL também é um ponto positivo para mim.
- Fico curioso se ele é usável também em um sistema somente CPU com muita RAM.
Interessante. Vou comparar com o https://diffusionbee.com, que tenho usado por diversão nos últimos meses.
- Conferi os dois, e o Noiselith produz resultados muito, muito melhores.
Pode até ser bom para marketing, mas é estranho apresentar execução no próprio dispositivo e offline como o principal diferencial. Isso porque é bem provável que a maioria já use Stable Diffusion desse jeito
Acho que seria melhor focar mais no fato de ser fácil de instalar e usar. Essa ainda é uma parte que não funciona tão bem. Para mim, se não tiver ControlNet, upscaling, recursos tipo detalhamento de rosto e, se possível, prompting por região, eu nem uso
Também penso que seria bom se as pessoas que querem criar seu próprio gerador de SD contribuíssem para algum dos projetos open source que já existem
Uma app store pode até ser uma boa ideia, mas em um mundo com Auto1111 e suas incontáveis extensões, não acho que a comunidade de Stable Diffusion vá reagir bem
- “É bom para marketing” é o ponto principal. Deveriam insistir mais nisso. Justamente o ponto que parece estranho revela o público-alvo deste produto. A ideia não é converter quem já usa SD, mas sim quem usa serviços exclusivamente online como Dall-E
- Acho que há bastante gente que não usa coisas como A1111. Por causa do modelo de instalação complicado, em que você baixa uma coisa, ela baixa outra, depois essa outra baixa mais alguma coisa, e então é preciso baixar manualmente este e aquele arquivo
  Mesmo que não seja atraente para usuários atuais, um produto mais simples pode apelar bastante para novos usuários
- Vi que há uma quantidade estranhamente grande de wrappers em nuvem para Stable Diffusion. Por isso gosto do fato de deixarem claro logo de cara que é no dispositivo/offline
  Quando comecei a mexer com SD, achei estranho que, em vez de simplesmente baixar alguns arquivos e executar, havia muitos pacotes que usavam coisas com telemetria pesada ou VMs
- Já usei SD no dispositivo, mas achei que pagar por uma versão hospedada valia a pena. É muito mais rápido
O prompt usado para vender o produto é “uma jovem mulher loira de cabelo cacheado, com olhar sedutor diante de um cenário de mundo fantástico, sentada de pernas abertas usando uma camisa branca e short jeans curto”
Fico realmente me perguntando se isso faz sentido
- Se o prompt não fosse um pouco sexual, polêmico ou desagradável, ficaria totalmente exposto ao coro de “ainda assim é pior que midjourney/dall-e/imagen”. Liberdade em relação a restrições é um dos principais argumentos de venda
- Tenho curiosidade sincera sobre quantas pessoas da comunidade open source dedicam suor e sangue para criar projetos assim, mesmo que no fim o resultado seja permitir que homens transformem seus MacBooks em pornobooks de Instagram
- Que bom que não fui o único a achar inadequado. Parece bastante um apito de cachorro
- Isso é realmente assustador
Depois de instalar, para executar em uma máquina Windows, foi preciso conceder permissão de acesso a redes públicas e privadas. Como diziam que era “offline”, isso me incomodou um pouco
- Passei por algo parecido
  Na primeira execução, ele baixou cerca de 30 GB de dados. Não sei se nas execuções seguintes ele funciona offline. No meu caso, depois disso ele continuou travando e não abriu mais
  Na desinstalação, também deixou todos os dados para trás. Não eram dados de usuário, mas o próprio executável, o ambiente virtual Python, o atualizador e todos os modelos. A desinstalação basicamente só removeu o atalho do menu Iniciar
- Fico curioso se ele continuou funcionando com a internet completamente desconectada
  Se for necessária uma conexão ativa com a internet para executar, anunciar como “offline” é totalmente errado
É certamente bom ver mais clientes locais surgindo. Como já foi mencionado em outros comentários, já existem algumas opções excelentes. Usei o automatic1111; ele é rápido e não exige muita configuração, mas ainda tem muitos controles e opções, então parece difícil no começo. O Fooocus é muito rápido, mas naturalmente tem menos customização
E há o ComfyUI. É como o santo graal da complexidade, mas essa complexidade permite fazer muita coisa. Por ser um app baseado em nós, dá para criar workflows personalizados e, depois que a imagem é gerada, enviar esse “nó” para outro lugar para fazer pós-processamento, como upscaling
Quero ver se o Noiselith ou outras ferramentas vão dar suporte ao SDXLTurbo. Ele foi lançado há poucos dias, mas na minha opinião muda completamente o jogo. Em uma GPU de consumidor, dá para gerar uma imagem 512x512 em cerca de 0,5 segundo. A qualidade não é incrível, mas a capacidade de digitar “uma raposa na floresta” e ver imediatamente, depois adicionar “usando um chapéu” e gerar de novo imediatamente, é muito valiosa. Antes, eu esperava 12 segundos por imagem. Parece pouca coisa, mas poder iterar tão rapidamente torna a geração local de imagens muito mais divertida
Ainda não consegui testar, mas estou usando CoreML no Comfy, então fico curioso se, quando surgirem front-ends mais úteis, também haverá mais trabalho de otimização de backend e desempenho nessas plataformas
1–4 it/s em imagens 512 é decepcionante demais, e 2–3 s/it em 1024 também é lento demais para os padrões atuais. É uma pena que nem mesmo o ANE consiga rodar imagens SD 1024x1024 em um MacBook Pro M3

Easy Stable Diffusion XL para uso offline no dispositivo

Apresentação do app Noiselith

Requisitos de sistema

Experiência do usuário

Roteiro de desenvolvimento

Opinião do GN⁺

Leituras relacionadas

1 comentários

Opiniões no Hacker News