Bonsai Image 4B - modelo de geração de imagens em 1-bit/ternário para dispositivos locais

(prismml.com)

3 pontos por GN⁺ 2026-06-01 | 1 comentários | Compartilhar no WhatsApp

Família de modelos compactos de geração de imagens projetada para executar inferência de difusão de alta qualidade em hardware local, como notebooks e celulares
Mantém a arquitetura do FLUX.2 Klein 4B, mas converte os pesos do transformador de difusão para representação 1-bit ou ternária
O tamanho do transformador de difusão cai de 7.75GB no original para 0.93GB no 1-bit e 1.21GB no ternário, reduzindo a pressão sobre o orçamento de memória
Gera imagens de 512×512 em 9.4 segundos no iPhone 17 Pro Max e em cerca de 6 segundos no Mac M4 Pro, com ganho de até 5.6x sobre o MFLUX
A variante ternária preserva 95% do desempenho em relação ao FLUX.2 Klein 4B, e as duas variantes serão lançadas com pesos abertos e código sob Apache 2.0

Bonsai Image 4B para geração local de imagens

Bonsai Image 4B é uma família de modelos compactos de geração de imagens projetada para executar inferência de difusão de alta qualidade em hardware local, de notebooks a celulares
Baseia-se no FLUX.2 Klein 4B e, mantendo a arquitetura, converte os pesos do transformador de difusão para formato 1-bit ou ternário
- 1-bit Bonsai Image 4B usa pesos binários de transformador {−1, +1} e fatores de escala por grupo em FP16, oferecendo 1.125 bits efetivos por peso
- Ternary Bonsai Image 4B usa pesos ternários de transformador {−1, 0, +1} e fatores de escala por grupo em FP16, oferecendo 1.71 bits efetivos por peso
A variante ternária é maior que a 1-bit, mas o estado 0 adicional melhora a qualidade visual e a fidelidade ao prompt
Com pesos abertos e inferência local, o Bonsai Image 4B mira um formato de distribuição que permita geração de imagens até em dispositivos que antes tinham dificuldade para rodar modelos dessa classe
Segundo a PrismML, o Bonsai Image 4B é o primeiro modelo de imagem dessa faixa de parâmetros a rodar diretamente em iPhone

Redução de memória para execução local

A principal limitação da geração local de imagens é que o modelo precisa caber dentro do orçamento de memória do dispositivo
Em modelos de imagem na faixa de 4B, o transformador de difusão é a maior parte do modelo e é executado repetidamente em cada etapa de denoising durante a geração
O tamanho do transformador afeta diretamente a pressão de memória, as exigências de largura de banda e a velocidade da inferência local
O transformador de difusão do FLUX.2 Klein 4B tem 7.75GB, enquanto o 1-bit Bonsai Image 4B tem 0.93GB e o Ternary Bonsai Image 4B tem 1.21GB
A variante 1-bit é 8.3x menor que o FLUX.2 Klein 4B em precisão total, e a variante ternária é 6.4x menor
As camadas binárias em si ficam cerca de 14x menores que os pesos do transformador em precisão total, mas cerca de 5% das projection layer, sensíveis à precisão, permanecem em FP16
As camadas ternárias oferecem redução de cerca de 10x, levando o transformador final a 1.21GB

Payload de distribuição e memória em runtime

O payload de distribuição para Apple Silicon, incluindo o codificador de texto comprimido e o VAE em FP16, é de 3.42GB no 1-bit e 3.88GB no ternário
O payload de distribuição do FLUX.2 Klein 4B em precisão total é de 15.97GB
Em runtime, o codificador de texto é descarregado após a codificação do prompt, então o uso médio de memória fica abaixo do payload completo
Ao gerar imagens de 512×512, a memória ativa média é de 1.5GB no 1-bit, 1.96GB no ternário e 11.74GB no FLUX.2 Klein 4B original
Na base 512×512, a redução de memória é de 7.8x no 1-bit e 6.0x no ternário
Ao gerar imagens de 1024×1024, a memória ativa média é de 1.95GB no 1-bit, 2.38GB no ternário e 14.39GB no FLUX.2 Klein 4B original
Na base 1024×1024, a redução de memória é de 7.4x no 1-bit e 6.0x no ternário

Hardware suportado e desempenho de execução

A pilha de distribuição oferece suporte a iPhone, iPad e Mac com Apple Silicon, além de GPUs CUDA
No hardware Apple, usa o caminho low-bit do MLX; em CUDA, usa os kernels GEMM low-bit do Gemlite
No iPhone 17 Pro Max, o pipeline do FLUX.2 Klein 4B em precisão total não cabe dentro do orçamento de memória do dispositivo, mas as duas variantes do Bonsai Image rodam on-device
O Bonsai Image 4B gera imagens de 512×512 em 9.4 segundos no iPhone 17 Pro Max
No Mac M4 Pro, gera imagens de 512×512 em cerca de 6 segundos
No Mac M4 Pro, o Bonsai Image 4B é até 5.6x mais rápido que o pipeline MFLUX padrão em precisão total

Desempenho em benchmarks

O Bonsai Image 4B foi avaliado em três benchmarks: GenEval, HPSv3 e DPG-Bench
O GenEval avalia composição de objetos e associação de atributos; o HPSv3 avalia preferência humana e qualidade estética; o DPG-Bench avalia seguimento denso de prompt e fidelidade semântica
O Ternary Bonsai Image 4B registra GenEval 0.723, HPSv3 12.22 e DPG-Bench 0.851 com um transformador de difusão de 1.21GB
O Ternary Bonsai Image 4B mantém 95% do desempenho do FLUX.2 Klein 4B enquanto reduz o tamanho do transformador de difusão em 6.4x
O 1-bit Bonsai Image 4B registra GenEval 0.671, HPSv3 11.15 e DPG-Bench 0.822 com um transformador de difusão de 0.93GB
O 1-bit Bonsai Image 4B mantém 88% do desempenho do FLUX.2 Klein 4B enquanto reduz o transformador de difusão para menos de 1GB
O FLUX.2 Klein 4B registra GenEval 0.819, HPSv3 12.84 e DPG-Bench 0.853 com um transformador de difusão de 7.75GB
O SDXL registra GenEval 0.3, HPSv3 10.05 e DPG-Bench 0.74 com um transformador de difusão de 5.14GB, mostrando 67% do desempenho do FLUX.2 Klein 4B
O BK-SDM-Small registra GenEval 0.297, HPSv3 3.05 e DPG-Bench 0.559 com um transformador de difusão de 0.98GB, mostrando 42% do desempenho do FLUX.2 Klein 4B
O Stable Diffusion 1.5 registra GenEval 0.396, HPSv3 4.2 e DPG-Bench 0.601 com um transformador de difusão de 1.72GB, mostrando 51% do desempenho do FLUX.2 Klein 4B
O PixArt-Σ XL 2 registra GenEval 0.541, HPSv3 11.93 e DPG-Bench 0.769 com um transformador de difusão de 1.2GB, mostrando 83% do desempenho do FLUX.2 Klein 4B
As duas variantes Bonsai competem com modelos modernos de imagem na faixa de 4B, ao mesmo tempo em que mantêm uma pegada de transformador de difusão muito menor
Com desempenho superior ao de modelos menores com pegada de memória semelhante, elas levam o funcionamento moderno de transformadores de difusão a uma faixa de memória antes ocupada por modelos menores e menos capazes

O significado de produto da inferência local

A geração de imagens depende não só da qualidade do modelo, mas também da forma de distribuição
APIs em nuvem continuam adequadas para muitos produtos, mas a geração exclusiva na nuvem transforma todo prompt em uma requisição remota e adiciona custo de serving e latência de ida e volta a cada iteração
A geração de imagens é naturalmente iterativa: usuários ajustam prompts, comparam resultados, criam variações, descartam saídas ruins e tentam de novo
Se cada tentativa exige trabalho no servidor, o usuário precisa calcular custo e esperar em cada ciclo criativo
A inferência local permite que a capacidade de geração seja colocada diretamente dentro da experiência do produto depois que o modelo está no dispositivo
A execução local reduz o custo por execução, acelera a iteração e é mais fácil de usar em contextos em que prompts e ativos gerados precisam permanecer privados
O Bonsai Image 4B é um passo rumo a uma forma de distribuir geração de imagens que se aproxima mais do usuário, no hardware que ele já possui

Forma de lançamento e recursos

O 1-bit Bonsai Image 4B e o Ternary Bonsai Image 4B serão lançados com pesos abertos e código
A licença é Apache 2.0
A PrismML também está lançando o app iOS Bonsai Studio, para testar diretamente o Bonsai Image 4B no iPhone
Whitepaper
Hugging Face
WebGPU demo
Bonsai Studio for iPhone
GitHub

1 comentários

GN⁺ 2026-06-01

Comentários do Hacker News

Acho que, 20 anos atrás, ninguém imaginava uma internet do futuro em que não daria para confiar se o que vemos ou lemos é real
Espero que um dia possamos olhar para esta era como um período de desvio, como naquela cena de Mad Men em que a família Draper faz um piquenique, joga o lixo no gramado e vai embora
- Há 20 anos, os professores diziam para não usar a Wikipedia porque não dava para confiar em nada na internet, e para nunca sair com alguém que você conheceu num app ou site. Diziam que essa pessoa era assassina em 100% dos casos, e também existia aquela frase de que “a internet é para pornografia”
  Com o tempo, muita coisa melhora, e as pessoas tendem a superestimar os riscos sociais quando uma nova tecnologia aparece pela primeira vez
- A cena do piquenique: https://www.youtube.com/watch?v=FDIvzDGBLWU
- Parece que você não lembra das discussões em torno da Narrative Science(https://en.wikipedia.org/wiki/Narrative_Science)
  Era uma spin-off universitária capaz de escrever textos plausíveis sobre beisebol, e depois sobre finanças, só com base em estatísticas. Isso permitia que sites de notícias locais publicassem matérias sobre todos os jogos, o que era bom para os fãs de esporte e era visto como um motor importante para aumentar o tráfego na web, mas também recebeu muitas críticas por não ser “real”
  Texto da Slate sobre isso em 2012: https://slate.com/technology/2012/03/narrative-science-robot...
  Desde que os computadores existem, as pessoas tentam fazê-los soar como humanos, e também não é novidade se preocupar se aquilo com que converso ou que leio é um robô imitando uma pessoa
- Chamar isso de um “período de desvio” parece um exagero
- Sempre houve desinformação em texto e imagem, e fotos podem ser manipuladas desde que a fotografia existe
  Sem dúvida está ficando mais fácil, mas não é uma mudança qualitativamente totalmente diferente. Acreditar cegamente no que se via na internet 20 anos atrás seria tão ridículo quanto agora
Estou realmente ansioso por um futuro em que eu possa fazer upgrade do hardware em vez de pagar assinaturas caras para fazer upgrade da minha IA
Muitos dos problemas que eu gostaria de atacar exigem dezenas de bilhões de tokens, e hoje isso é praticamente inacessível sem o patrocínio de um projeto corporativo. Uma máquina geradora em ASIC capaz de entregar dezenas de milhares de tokens por segundo com qualidade no nível do Opus 4.6 já bastaria
- Uma empresa chamada Taalas está construindo algo parecido. Não está no nível de qualidade do Opus 4.6, mas provavelmente está mirando modelos maiores
  No momento usa o modelo LLama 8B, roda a cerca de 17k tokens por segundo e pode ser testado em https://chatjimmy.ai/
- Pode dar um exemplo de um problema assim?
- Fico curioso sobre como os custos de hardware e energia se comparariam ao custo da assinatura
- Pela lógica, se cinco pessoas juntam recursos, isso é mais forte do que uma pessoa sozinha, então o datacenter sempre vence
  Isso acontece porque a taxa de utilização do tempo é maior. Eu também vivo imaginando esse cenário, mas racionalmente vejo isso como uma fantasia. Em média, você não consegue usar mais do que o conjunto de pessoas que aproveita melhor o hardware
  O hardware pessoal também vai melhorar, mas a ponta do estado da arte sempre estará na nuvem
Quando vi “1-bit”, a primeira coisa que me veio à cabeça não foram pesos de modelo em 1 bit, e sim geração de imagem em preto e branco com dithering de 1 bit
Então fiquei imaginando quão legal, rápida e compacta poderia ser uma geradora de imagens por difusão se as imagens de treino e o espaço de trabalho fossem limitados a imagens de 1 bit com dithering por Floyd-Steinberg, Atkinson ou algum outro algoritmo preferido
O treinamento seria bem rápido e provavelmente caberia até em uma única GPU moderna
- Ainda assim, acho que seria melhor treinar em escala de cinza e aplicar o dithering depois
- Pensei exatamente a mesma coisa, e parece haver várias ideias legais para explorar aqui
Pergunta sincera: isso resolve algum problema real?
Quando se usa modelo de difusão, eu vejo o gargalo como tempo de geração, não armazenamento nem memória. Muitos modelos rodam em GPUs de 8 a 12 GB da geração 1080 em diante, ou em Macs com memória parecida, e de qualquer forma isso já é quase o piso em termos de capacidade de GPU. Além disso, esses modelos parecem ser um pouco mais lentos do que o pequeno modelo base FLUX.2 do qual derivam
Claro, isso pode permitir rodar modelos locais em dispositivos como o iPhone, que têm GPU relativamente forte, mas memória limitada; só não sei se isso é realmente uma necessidade tão comum
- É um avanço útil. Se uma inferência em escala local consegue entregar uma qualidade razoavelmente boa, então dá para criar produtos que geram imagens descartáveis com frequência, sem preocupação com custo
  Até agora, todos os produtos de geração de imagem que vi cobram por uso, o que limita muito o valor. Só não sei se isso já chegou de fato ao ponto de “qualidade aceitável”
- Estamos numa era em que a demanda por GPU é extremamente alta e a oferta é limitada. Cada vez que você empurra a inferência para a edge, recursos de nuvem ficam livres para outras tarefas
  Sempre que a eficiência melhora, aumenta o que dá para fazer com os recursos existentes. Se você consegue renderizar imagens com metade da computação, então precisa de metade das GPUs
- GPUs de 8 a 12 GB da geração 1080 ou Macs com memória parecida não são o piso. A maioria usa notebooks ou dispositivos móveis com desempenho de GPU muito inferior
- No momento, o valor parece mais próximo de valor acadêmico do que de uso prático
  Mesmo os modelos de ponta ainda mal são utilizáveis, e na geração de imagens até os melhores costumam produzir resultados ruins na maior parte do tempo. Então um pequeno modelo de 1 bit, que inevitavelmente fica muito atrás da fronteira em capacidade, parece difícil de usar agora
  Mas aumentar bastante a densidade de capacidade por unidade de computação tem grande importância. Isso permite operar modelos de ponta de forma melhor e mais barata, reduzir consumo de recursos e ampliar a faixa de tarefas que podem ser executadas na edge, em laptops pessoais ou celulares
  Também há muitas tarefas que, por privacidade, precisam rodar no próprio dispositivo, e nem todo mundo tem uma GPU grande dedicada
- Exato. Tamanho e desempenho não são problema só para LLMs locais, mas também para empresas de LLMs de ponta como OpenAI e Anthropic
  Empresas como a Anthropic ainda têm enormes prejuízos com inferência, e avanços em modelos eficientes e com bom desempenho ajudam na lucratividade
A frase “Até onde sabemos, o Bonsai Image 4B é o primeiro modelo de imagem nessa escala de parâmetros a rodar diretamente em um iPhone” está errada. Mas foi formulada com cuidado para não ficar totalmente errada
O FLUX.2 [klein] 4B, ou seja, um modelo de praticamente a mesma escala de parâmetros e essencialmente o mesmo modelo, roda em iPhone pelo app Draw Things. Ele usa quantização de 8 bits ou 6 bits, então talvez se possa dizer que não roda “diretamente”, mas essa ressalva técnica soa meio suspeita
Chamam isso de modelo de difusão, mas o Flux.2 subjacente é um modelo de fluxo retificado
- Pessoalmente, acho aceitável usar “difusão” para se referir a toda essa família de modelos
Estranho. Sou visitante do Reino Unido e aparece isto:
Website Not Allowed
“⁦‪prismml.com‬⁩” is a restricted website.
Em menos de um dia, alguém vai treinar uma LoRA para esse modelo de 1 bit e fazê-lo gerar conteúdo hentai em um Apple Watch
Se você quiser rodar sem mexer no sistema de arquivos local, pode usar https://github.com/kordless/bonsai-docker
Extraí o código da demo web, conectei como um nó de geração de imagem web a uma ferramenta de workflow de IA no navegador, e ficou bem legal
Estou esperando o xenova adicionar isso ao transformersjs 4.3, e aí também pretendo lançar. Não consegui esperar pelos testes, então fui em frente e experimentei primeiro
- Pode explicar essa tal ferramenta de workflow de IA no navegador? Talvez eu esteja construindo algo parecido, então tenho muita curiosidade sobre o que outras pessoas estão fazendo nessa área

Bonsai Image 4B - modelo de geração de imagens em 1-bit/ternário para dispositivos locais

Bonsai Image 4B para geração local de imagens

Redução de memória para execução local

Payload de distribuição e memória em runtime

Hardware suportado e desempenho de execução

Desempenho em benchmarks

O significado de produto da inferência local

Forma de lançamento e recursos

Leituras relacionadas

1 comentários

Comentários do Hacker News