Z-Image - modelo de geração de imagens poderoso e eficiente

(github.com/Tongyi-MAI)

23 pontos por GN⁺ 2025-12-08 | 3 comentários | Compartilhar no WhatsApp

Modelo de geração de imagens da Alibaba com desempenho em nível Nano Banana Pro, open source sob a licença Apache 2.0
Modelo eficiente de geração de imagens com 6B parâmetros, baseado em um Single-Stream Diffusion Transformer
Composto por três versões, o Z-Image-Turbo alcança qualidade no nível de modelos concorrentes com apenas 8 etapas de inferência e funciona até em ambientes com 16 GB de VRAM
O Z-Image-Edit oferece recursos de edição de imagem baseados em instruções em linguagem natural, e o Z-Image-Base será lançado como modelo-base para fine-tuning da comunidade
O modelo adota a arquitetura S3-DiT, integrando tokens de texto, visão e VAE em uma única sequência para maximizar a eficiência de parâmetros
Com os algoritmos Decoupled-DMD e DMDR, gera imagens de alta qualidade mesmo com poucas etapas e registra desempenho entre os melhores dos modelos open source

Visão geral do Z-Image

O Z-Image é um modelo fundacional de geração de imagens que combina eficiência e desempenho, usando uma arquitetura Single-Stream Diffusion Transformer
Baseado em 6 bilhões de parâmetros, oferece três variantes: Z-Image-Turbo, Z-Image-Base e Z-Image-Edit
- Z-Image-Turbo: gera imagens de alta qualidade com apenas 8 avaliações de função (NFE), com latência de inferência inferior a 1 segundo em GPU H800
- Z-Image-Base: modelo-base não destilado, com suporte a fine-tuning e desenvolvimento customizado pela comunidade
- Z-Image-Edit: versão especializada em edição de imagens, com transformação de imagens baseada em linguagem natural

Principais recursos e desempenho

O Z-Image-Turbo produz com precisão imagens fotorrealistas e renderização de texto bilíngue em inglês e chinês
O recurso Prompt Enhancer reforça a capacidade de descrição com base em raciocínio e conhecimento de mundo
O Z-Image-Edit oferece suporte a transformações criativas de imagem e compreensão precisa de instruções
Registrou desempenho entre os melhores dos modelos open source na avaliação de preferência humana baseada em Elo do Alibaba AI Arena

Arquitetura do modelo (S3-DiT)

Adota a estrutura Scalable Single-Stream DiT (S3-DiT)
- Combina tokens de texto, tokens semânticos visuais e tokens VAE de imagem em uma única sequência
- Maximiza a eficiência de parâmetros em comparação com a arquitetura tradicional de duplo fluxo
Essa estrutura possibilita o aprendizado de representações integradas de texto e imagem

Algoritmos principais

Decoupled-DMD
- Decoupled-DMD é o algoritmo central de destilação que torna possível a inferência em 8 etapas do Z-Image
- Separa o DMD (Distribution Matching Distillation) tradicional em dois mecanismos: CFG Augmentation (CA) e Distribution Matching (DM)
  - CA atua como o motor principal do processo de destilação
  - DM funciona como regularização para manter a estabilidade e a qualidade da saída
- Ao separar e otimizar os dois mecanismos, alcança geração de imagens de alto desempenho mesmo com poucas etapas
DMDR
- DMDR (Distribution Matching Distillation with Reinforcement Learning) é uma técnica de pós-processamento que combina DMD com aprendizado por reforço (RL)
- O RL maximiza o desempenho do DMD, enquanto o DMD regulariza o RL, formando uma estrutura complementar
- Com isso, melhora a coerência semântica, a qualidade estética e a consistência estrutural, além de reforçar a capacidade de representar detalhes de alta frequência

Suporte à comunidade e ao ecossistema

Cache-DiT: suporte à aceleração de inferência por meio de DBCache, Context Parallelism e Tensor Parallelism
stable-diffusion.cpp: motor em C++ que permite executar o Z-Image até em ambientes com 4 GB de VRAM
LeMiCa: oferece aceleração de inferência no nível de timestep sem necessidade de treinamento
ComfyUI ZImageLatent: fornece uma interface latent simplificada para a resolução oficial

Resumo

O Z-Image é um modelo open source de geração de imagens de alto desempenho que combina uma arquitetura eficiente (S3-DiT) com técnicas inovadoras de destilação (Decoupled-DMD, DMDR)
O Z-Image-Turbo alcança simultaneamente inferência rápida e alta qualidade, podendo ser executado até em GPUs de consumo
O Z-Image-Edit oferece edição de imagens precisa com base em linguagem natural
No Alibaba AI Arena, registrou uma das melhores pontuações de preferência humana entre os modelos open source
O ecossistema do Z-Image está se expandindo como uma plataforma de modelos generativos de uso geral, integrada a diversos projetos da comunidade

3 comentários

crawler 2025-12-09

A arte local realmente ficou por muito tempo no SDXL, então estou animado porque parece que finalmente surgiu um bom modelo base.
Acima de tudo, quando o Stable Diffusion ficou famoso, a censura ficou tão pesada que era difícil até treinar, então é realmente impressionante que este também não tenha censura.

wedding 2025-12-08

Fiquei curioso e testei. Como não há censura, parece que isso pode virar uma faca bem afiada...

GN⁺ 2025-12-08

Comentários do Hacker News

Testei o Z-Image Turbo na semana passada
- É muito rápido, cerca de 3 segundos numa RTX 4090, e a capacidade de manter a consistência da imagem é impressionante mesmo em resoluções de 1536x1024 até 2048x2048
- Para um modelo de 6B parâmetros, a precisão é impressionante
- É especialmente eficaz ao fazer pós-processamento (refiner) nos resultados do Qwen-Image 20b. O Qwen entende muito bem o prompt, mas tende a deixar a imagem suavizada e borrada
- Amostras de teste
- Na RTX 4090 leva 3 segundos, mas no M1 Ultra demora 8 segundos por passo; com os 9 passos padrão, passa de 1 minuto
- Dá para perceber o quanto o Apple Silicon está atrás no processamento de modelos não linguísticos
- No fal.ai, é possível gerar em menos de 1 segundo. Combinando com LoRA, dá para criar imagens personalizadas em menos de 3 segundos
- Mesmo comparado com seedream, nanobanana e outros, entra facilmente no top 5 pela combinação de velocidade e qualidade
- Ainda assim, durante os testes só 2 de 4 passaram; por exemplo, a barra KitKat saiu com forma e logo totalmente diferentes, e a DNA armor apareceu só como material metálico comum
- Há um erro de digitação no link do GitHub (gitub), que leva a um site malicioso, então é preciso cuidado
- A China está, na prática, sustentando o ecossistema de IA de pesos abertos. Se ainda sobrar mercado para GPUs de consumo no futuro, provavelmente será graças à China
É surpreendente ver esse nível de resultado com 6B parâmetros
- A comunidade adotou esse modelo rapidamente, e o Flux(2) já está quase esquecido
- O Z-Image está ganhando ainda mais popularidade por ser um modelo sem censura. Já a BFL, criadora do Flux 2, dedicou boa parte do release a enfatizar “segurança” (ou seja, censura)
- Mas essa “segurança” dizia respeito mais à política do serviço online do que ao modelo em si. Na prática, dá para gerar sem restrições
- As menções a “segurança” são, na verdade, só uma mensagem para investidores: “nós não vamos te colocar em apuros”
- A expressão “lobotomizing” é curiosa. Fico me perguntando o que isso significa quando aplicada a modelos de geração de imagem
- Mas, se esse modelo for chinês, talvez ele não consiga gerar imagens do Xi Jinping
Esse modelo foi abordado recentemente no podcast Pretrained
- Ele tem uma arquitetura eficiente, reaproveitando backbones existentes para codificação de texto e tokens semânticos
- Foi treinado com dados de legendas sintéticas de vários comprimentos, o que melhora sua compreensão de texto
- O OCR de texto dentro da imagem também foi incluído no treinamento, melhorando a qualidade da geração de texto. O Nano Banana Pro evoluiu de forma parecida
No PDF oficial de demonstração, há quase 50 fotos de mulheres sozinhas, mas apenas 2 de homens sozinhos
- O mercado-alvo imaginado pelos desenvolvedores está bem claro
- Na prática, se olhar sites como o civitai, a maior parte das imagens geradas por usuários e das LoRAs reflete esse mercado
- No fim, essa tecnologia está sendo impulsionada pelos desejos do público masculino jovem
- Pela reação da comunidade r/stablediffusion, o Flux 2 parece efetivamente morto. Ele tem muito mais conhecimento, mas o Z-Image é mais popular
- Curiosamente, um dos modelos masculinos é literalmente Tony Leung sem nenhuma alteração
- Por estar sem censura, o modelo parece se encaixar melhor nesse mercado
Quando usei pessoalmente, achei decepcionante
- À primeira vista parece bom, mas na prática a capacidade de seguir prompts era fraca, e expressões como “most cultures” viravam imagens em estilo cartum
O Z-Image está sendo visto como o verdadeiro sucessor do Stable Diffusion 1.5
- Qualidade, escalabilidade e viabilidade de rodar localmente melhoraram, e um ecossistema está se formando rapidamente
- Mas dá vontade de perguntar se o pessoal esqueceu do SDXL. Ele foi lançado há apenas dois anos e meio
Testei no Framework Desktop, mas o ComfyUI causava um erro de kernel amdgpu por volta dos 40 passos, então escrevi meu próprio código de contorno
- Consegui resultados decentes com LoRA, e mesmo com 8 passos (15 a 20 segundos) já dá para gerar imagens bem agradáveis
- Criei um nó de reforço de prompt baseado em llama.cpp para melhorar a qualidade
É impressionante que caiba tanto conhecimento de mundo em 16GiB
- Ainda está no começo, mas no futuro a IA local deve evoluir para algo mais personalizado e hackeável
- Acho que vem aí um futuro centrado em modelos inteligentes como o Nano Banana
- Para uso realmente valioso, é preciso poder injetar camadas de controle diretamente no modelo
- Espero que um dia um modelo no nível do Nano Banana Pro também rode localmente
Mas esse modelo também sofre impacto da censura chinesa
- Se pedir “Tank Man” ou “Lady Liberty Hong Kong”, ele só exibe a frase “Maybe Not Safe”
Como iniciante em IA, fiquei curioso se isso rodaria num MacBook de 24GB
- Na prática, num MacBook Pro M5, levaram 399 segundos para gerar uma imagem, e o sistema ficou travado nesse tempo
- No replicate.com, sai 1 imagem em 1,5 segundo, por cerca de 1 dólar a cada 1000 imagens, então é muito mais eficiente
- A conclusão é que rodar localmente no Mac é ineficiente
- Para iniciantes, o ComfyUI para macOS é o mais fácil. Basta importar o workflow do Z-Image e ele instala o modelo automaticamente e já executa
- Também há como rodar com koboldcpp em Linux, Windows e Mac. É só carregar o arquivo de configuração e usar diretamente no servidor local (http://localhost:5001/sdui)