- Bonsai Image 4B é uma família compacta de modelos de geração de imagens projetada para executar inferência de difusão de alta qualidade em hardware local, de notebooks a celulares
- Mantém a arquitetura do FLUX.2 Klein 4B, mas converte os pesos do transformer de difusão para representação 1-bit ou ternária
- O tamanho do transformer de difusão cai de 7.75GB no original para 0.93GB na versão 1-bit e 1.21GB na ternária, reduzindo a pressão sobre o orçamento de memória
- No iPhone 17 Pro Max, gera imagens de 512×512 em 9,4 segundos e, no Mac M4 Pro, em cerca de 6 segundos, com até 5,6x mais velocidade que o MFLUX
- A versão ternária mantém 95% do desempenho em relação ao FLUX.2 Klein 4B, e as duas variantes serão lançadas com pesos abertos e código sob Apache 2.0
Bonsai Image 4B para geração local de imagens
- Bonsai Image 4B é uma família compacta de modelos de geração de imagens projetada para executar inferência de difusão de alta qualidade em hardware local, de notebooks a celulares
- Baseia-se no FLUX.2 Klein 4B e mantém a arquitetura, alterando apenas os pesos do transformer de difusão para formato 1-bit ou ternário
- 1-bit Bonsai Image 4B usa pesos binários de transformer
{−1, +1}e fatores de escala por grupo em FP16, oferecendo 1.125 bits efetivos por peso - Ternary Bonsai Image 4B usa pesos ternários de transformer
{−1, 0, +1}e fatores de escala por grupo em FP16, oferecendo 1.71 bits efetivos por peso
- 1-bit Bonsai Image 4B usa pesos binários de transformer
- A variante ternária é maior que a 1-bit, mas o estado 0 adicional melhora a qualidade visual e a fidelidade ao prompt
- Com pesos abertos e inferência local, o Bonsai Image 4B busca um formato de distribuição que permita geração de imagens até em dispositivos onde modelos dessa categoria antes eram difíceis de executar
- Segundo a PrismML, o Bonsai Image 4B é o primeiro modelo de imagem dessa faixa de parâmetros a rodar diretamente em iPhone
Redução de memória para execução local
- A principal limitação da geração local de imagens é que o modelo precisa caber dentro do orçamento de memória do dispositivo
- Em modelos de imagem da classe 4B, o transformer de difusão é a maior parte do modelo e é executado repetidamente em cada etapa de denoising durante a geração
- O tamanho do transformer afeta diretamente a pressão de memória, a demanda de largura de banda e a velocidade da inferência local
- O transformer de difusão do FLUX.2 Klein 4B tem 7.75GB, enquanto o 1-bit Bonsai Image 4B tem 0.93GB e o Ternary Bonsai Image 4B tem 1.21GB
- A variante 1-bit é 8,3x menor que o FLUX.2 Klein 4B em precisão total, e a variante ternária é 6,4x menor
- As camadas binárias em si ficam cerca de 14x menores que os pesos do transformer em precisão total, mas cerca de 5% das projection layers, sensíveis à precisão, permanecem em FP16
- As camadas ternárias oferecem uma redução de cerca de 10x, resultando em um transformer final de 1.21GB
Payload de distribuição e memória em tempo de execução
- O payload de distribuição para Apple Silicon, incluindo encoder de texto comprimido e VAE em FP16, é de 3.42GB para a versão 1-bit e 3.88GB para a ternária
- O payload de distribuição do FLUX.2 Klein 4B em precisão total é de 15.97GB
- Em tempo de execução, o encoder de texto é descarregado após o encoding do prompt, então o uso médio de memória fica abaixo do payload total
- Na geração de imagens 512×512, a memória ativa média é de 1.5GB para a versão 1-bit, 1.96GB para a ternária e 11.74GB para o FLUX.2 Klein 4B original
- Na base 512×512, a redução de memória é de 7,8x para a versão 1-bit e 6,0x para a ternária
- Na geração de imagens 1024×1024, a memória ativa média é de 1.95GB para a versão 1-bit, 2.38GB para a ternária e 14.39GB para o FLUX.2 Klein 4B original
- Na base 1024×1024, a redução de memória é de 7,4x para a versão 1-bit e 6,0x para a ternária
Hardware compatível e desempenho de execução
- A stack de distribuição oferece suporte a iPhone, iPad e Mac com Apple Silicon, além de GPUs CUDA
- Em hardware Apple, usa o caminho low-bit do MLX; em CUDA, usa os kernels low-bit GEMM do Gemlite
- No iPhone 17 Pro Max, o pipeline do FLUX.2 Klein 4B em precisão total não cabe no orçamento de memória do dispositivo, mas as duas variantes do Bonsai Image rodam on-device
- O Bonsai Image 4B gera imagens de 512×512 em 9,4 segundos no iPhone 17 Pro Max
- No Mac M4 Pro, gera imagens de 512×512 em cerca de 6 segundos
- No Mac M4 Pro, o Bonsai Image 4B é até 5,6x mais rápido que o pipeline MFLUX padrão em precisão total
Desempenho em benchmarks
- O Bonsai Image 4B foi avaliado em três benchmarks: GenEval, HPSv3 e DPG-Bench
- O GenEval mede composição de objetos e associação de atributos; o HPSv3 mede preferência humana e qualidade estética; o DPG-Bench mede seguimento denso de prompts e fidelidade semântica
- O Ternary Bonsai Image 4B registra 0.723 no GenEval, 12.22 no HPSv3 e 0.851 no DPG-Bench com um transformer de difusão de 1.21GB
- O Ternary Bonsai Image 4B mantém 95% do desempenho do FLUX.2 Klein 4B enquanto reduz o transformer de difusão em 6,4x
- O 1-bit Bonsai Image 4B registra 0.671 no GenEval, 11.15 no HPSv3 e 0.822 no DPG-Bench com um transformer de difusão de 0.93GB
- O 1-bit Bonsai Image 4B mantém 88% do desempenho do FLUX.2 Klein 4B enquanto reduz o transformer de difusão para menos de 1GB
- O FLUX.2 Klein 4B registra 0.819 no GenEval, 12.84 no HPSv3 e 0.853 no DPG-Bench com um transformer de difusão de 7.75GB
- O SDXL registra 0.3 no GenEval, 10.05 no HPSv3 e 0.74 no DPG-Bench com um transformer de difusão de 5.14GB, alcançando 67% do desempenho do FLUX.2 Klein 4B
- O BK-SDM-Small registra 0.297 no GenEval, 3.05 no HPSv3 e 0.559 no DPG-Bench com um transformer de difusão de 0.98GB, alcançando 42% do desempenho do FLUX.2 Klein 4B
- O Stable Diffusion 1.5 registra 0.396 no GenEval, 4.2 no HPSv3 e 0.601 no DPG-Bench com um transformer de difusão de 1.72GB, alcançando 51% do desempenho do FLUX.2 Klein 4B
- O PixArt-Σ XL 2 registra 0.541 no GenEval, 11.93 no HPSv3 e 0.769 no DPG-Bench com um transformer de difusão de 1.2GB, alcançando 83% do desempenho do FLUX.2 Klein 4B
- As duas variantes do Bonsai competem com modelos modernos de imagem da classe 4B, mantendo ao mesmo tempo um footprint de transformer de difusão muito menor
- Com desempenho superior ao de modelos menores com footprint de memória semelhante, elas levam o comportamento moderno de transformers de difusão para uma faixa de memória antes ocupada por modelos menores e menos capazes
Significado do produto para inferência local
- A geração de imagens depende não só da qualidade do modelo, mas também da forma de distribuição
- APIs em nuvem continuam adequadas para muitos produtos, mas a geração exclusivamente na nuvem transforma todo prompt em uma requisição remota e adiciona custo de serving e latência de ida e volta a cada iteração
- A geração de imagens é naturalmente iterativa: usuários ajustam prompts, comparam resultados, criam variações, descartam saídas ruins e tentam de novo
- Se cada tentativa depende de processamento no servidor, o usuário precisa calcular custos e esperar em cada loop criativo
- A inferência local permite que, uma vez instalado no dispositivo, o modelo coloque a capacidade de geração diretamente dentro da experiência do produto
- A execução local reduz custo operacional, acelera a iteração e é mais fácil de usar em ambientes onde prompts e ativos gerados precisam permanecer privados
- O Bonsai Image 4B é um passo em direção a uma forma de distribuir geração de imagens que se aproxima mais do usuário, no hardware que ele já possui
Forma de lançamento e recursos
- O 1-bit Bonsai Image 4B e o Ternary Bonsai Image 4B serão lançados com pesos abertos e código
- A licença é Apache 2.0
- A PrismML também lança o app iOS Bonsai Studio, que permite testar o Bonsai Image 4B diretamente no iPhone
- Whitepaper
- Hugging Face
- WebGPU demo
- Bonsai Studio for iPhone
- GitHub
1 comentários
Comentários do Hacker News
Acho que, 20 anos atrás, ninguém imaginava uma internet do futuro em que não daria para confiar se o que vemos ou lemos é real
Espero que um dia possamos olhar para esta era como um período de desvio, como naquela cena de Mad Men em que a família Draper faz um piquenique, joga o lixo no gramado e vai embora
Com o tempo, muita coisa melhora, e as pessoas tendem a superestimar os riscos sociais quando uma nova tecnologia aparece pela primeira vez
Era uma spin-off universitária capaz de escrever textos plausíveis sobre beisebol, e depois sobre finanças, só com base em estatísticas. Isso permitia que sites de notícias locais publicassem matérias sobre todos os jogos, o que era bom para os fãs de esporte e era visto como um motor importante para aumentar o tráfego na web, mas também recebeu muitas críticas por não ser “real”
Texto da Slate sobre isso em 2012: https://slate.com/technology/2012/03/narrative-science-robot...
Desde que os computadores existem, as pessoas tentam fazê-los soar como humanos, e também não é novidade se preocupar se aquilo com que converso ou que leio é um robô imitando uma pessoa
Sem dúvida está ficando mais fácil, mas não é uma mudança qualitativamente totalmente diferente. Acreditar cegamente no que se via na internet 20 anos atrás seria tão ridículo quanto agora
Estou realmente ansioso por um futuro em que eu possa fazer upgrade do hardware em vez de pagar assinaturas caras para fazer upgrade da minha IA
Muitos dos problemas que eu gostaria de atacar exigem dezenas de bilhões de tokens, e hoje isso é praticamente inacessível sem o patrocínio de um projeto corporativo. Uma máquina geradora em ASIC capaz de entregar dezenas de milhares de tokens por segundo com qualidade no nível do Opus 4.6 já bastaria
No momento usa o modelo LLama 8B, roda a cerca de 17k tokens por segundo e pode ser testado em https://chatjimmy.ai/
Isso acontece porque a taxa de utilização do tempo é maior. Eu também vivo imaginando esse cenário, mas racionalmente vejo isso como uma fantasia. Em média, você não consegue usar mais do que o conjunto de pessoas que aproveita melhor o hardware
O hardware pessoal também vai melhorar, mas a ponta do estado da arte sempre estará na nuvem
Quando vi “1-bit”, a primeira coisa que me veio à cabeça não foram pesos de modelo em 1 bit, e sim geração de imagem em preto e branco com dithering de 1 bit
Então fiquei imaginando quão legal, rápida e compacta poderia ser uma geradora de imagens por difusão se as imagens de treino e o espaço de trabalho fossem limitados a imagens de 1 bit com dithering por Floyd-Steinberg, Atkinson ou algum outro algoritmo preferido
O treinamento seria bem rápido e provavelmente caberia até em uma única GPU moderna
Pergunta sincera: isso resolve algum problema real?
Quando se usa modelo de difusão, eu vejo o gargalo como tempo de geração, não armazenamento nem memória. Muitos modelos rodam em GPUs de 8 a 12 GB da geração 1080 em diante, ou em Macs com memória parecida, e de qualquer forma isso já é quase o piso em termos de capacidade de GPU. Além disso, esses modelos parecem ser um pouco mais lentos do que o pequeno modelo base FLUX.2 do qual derivam
Claro, isso pode permitir rodar modelos locais em dispositivos como o iPhone, que têm GPU relativamente forte, mas memória limitada; só não sei se isso é realmente uma necessidade tão comum
Até agora, todos os produtos de geração de imagem que vi cobram por uso, o que limita muito o valor. Só não sei se isso já chegou de fato ao ponto de “qualidade aceitável”
Sempre que a eficiência melhora, aumenta o que dá para fazer com os recursos existentes. Se você consegue renderizar imagens com metade da computação, então precisa de metade das GPUs
Mesmo os modelos de ponta ainda mal são utilizáveis, e na geração de imagens até os melhores costumam produzir resultados ruins na maior parte do tempo. Então um pequeno modelo de 1 bit, que inevitavelmente fica muito atrás da fronteira em capacidade, parece difícil de usar agora
Mas aumentar bastante a densidade de capacidade por unidade de computação tem grande importância. Isso permite operar modelos de ponta de forma melhor e mais barata, reduzir consumo de recursos e ampliar a faixa de tarefas que podem ser executadas na edge, em laptops pessoais ou celulares
Também há muitas tarefas que, por privacidade, precisam rodar no próprio dispositivo, e nem todo mundo tem uma GPU grande dedicada
Empresas como a Anthropic ainda têm enormes prejuízos com inferência, e avanços em modelos eficientes e com bom desempenho ajudam na lucratividade
A frase “Até onde sabemos, o Bonsai Image 4B é o primeiro modelo de imagem nessa escala de parâmetros a rodar diretamente em um iPhone” está errada. Mas foi formulada com cuidado para não ficar totalmente errada
O FLUX.2 [klein] 4B, ou seja, um modelo de praticamente a mesma escala de parâmetros e essencialmente o mesmo modelo, roda em iPhone pelo app Draw Things. Ele usa quantização de 8 bits ou 6 bits, então talvez se possa dizer que não roda “diretamente”, mas essa ressalva técnica soa meio suspeita
Chamam isso de modelo de difusão, mas o Flux.2 subjacente é um modelo de fluxo retificado
Estranho. Sou visitante do Reino Unido e aparece isto:
Website Not Allowed
“prismml.com” is a restricted website.
Em menos de um dia, alguém vai treinar uma LoRA para esse modelo de 1 bit e fazê-lo gerar conteúdo hentai em um Apple Watch
Se você quiser rodar sem mexer no sistema de arquivos local, pode usar https://github.com/kordless/bonsai-docker
Extraí o código da demo web, conectei como um nó de geração de imagem web a uma ferramenta de workflow de IA no navegador, e ficou bem legal
Estou esperando o xenova adicionar isso ao transformersjs 4.3, e aí também pretendo lançar. Não consegui esperar pelos testes, então fui em frente e experimentei primeiro