23 pontos por GN⁺ 2025-12-08 | 3 comentários | Compartilhar no WhatsApp
  • Modelo de geração de imagens da Alibaba com desempenho em nível Nano Banana Pro, open source sob a licença Apache 2.0
  • Modelo eficiente de geração de imagens com 6B parâmetros, baseado em um Single-Stream Diffusion Transformer
  • Composto por três versões, o Z-Image-Turbo alcança qualidade no nível de modelos concorrentes com apenas 8 etapas de inferência e funciona até em ambientes com 16 GB de VRAM
  • O Z-Image-Edit oferece recursos de edição de imagem baseados em instruções em linguagem natural, e o Z-Image-Base será lançado como modelo-base para fine-tuning da comunidade
  • O modelo adota a arquitetura S3-DiT, integrando tokens de texto, visão e VAE em uma única sequência para maximizar a eficiência de parâmetros
  • Com os algoritmos Decoupled-DMD e DMDR, gera imagens de alta qualidade mesmo com poucas etapas e registra desempenho entre os melhores dos modelos open source

Visão geral do Z-Image

  • O Z-Image é um modelo fundacional de geração de imagens que combina eficiência e desempenho, usando uma arquitetura Single-Stream Diffusion Transformer
  • Baseado em 6 bilhões de parâmetros, oferece três variantes: Z-Image-Turbo, Z-Image-Base e Z-Image-Edit
    • Z-Image-Turbo: gera imagens de alta qualidade com apenas 8 avaliações de função (NFE), com latência de inferência inferior a 1 segundo em GPU H800
    • Z-Image-Base: modelo-base não destilado, com suporte a fine-tuning e desenvolvimento customizado pela comunidade
    • Z-Image-Edit: versão especializada em edição de imagens, com transformação de imagens baseada em linguagem natural

Principais recursos e desempenho

  • O Z-Image-Turbo produz com precisão imagens fotorrealistas e renderização de texto bilíngue em inglês e chinês
  • O recurso Prompt Enhancer reforça a capacidade de descrição com base em raciocínio e conhecimento de mundo
  • O Z-Image-Edit oferece suporte a transformações criativas de imagem e compreensão precisa de instruções
  • Registrou desempenho entre os melhores dos modelos open source na avaliação de preferência humana baseada em Elo do Alibaba AI Arena

Arquitetura do modelo (S3-DiT)

  • Adota a estrutura Scalable Single-Stream DiT (S3-DiT)
    • Combina tokens de texto, tokens semânticos visuais e tokens VAE de imagem em uma única sequência
    • Maximiza a eficiência de parâmetros em comparação com a arquitetura tradicional de duplo fluxo
  • Essa estrutura possibilita o aprendizado de representações integradas de texto e imagem

Algoritmos principais

  • Decoupled-DMD

    • Decoupled-DMD é o algoritmo central de destilação que torna possível a inferência em 8 etapas do Z-Image
    • Separa o DMD (Distribution Matching Distillation) tradicional em dois mecanismos: CFG Augmentation (CA) e Distribution Matching (DM)
      • CA atua como o motor principal do processo de destilação
      • DM funciona como regularização para manter a estabilidade e a qualidade da saída
    • Ao separar e otimizar os dois mecanismos, alcança geração de imagens de alto desempenho mesmo com poucas etapas
  • DMDR

    • DMDR (Distribution Matching Distillation with Reinforcement Learning) é uma técnica de pós-processamento que combina DMD com aprendizado por reforço (RL)
    • O RL maximiza o desempenho do DMD, enquanto o DMD regulariza o RL, formando uma estrutura complementar
    • Com isso, melhora a coerência semântica, a qualidade estética e a consistência estrutural, além de reforçar a capacidade de representar detalhes de alta frequência

Suporte à comunidade e ao ecossistema

  • Cache-DiT: suporte à aceleração de inferência por meio de DBCache, Context Parallelism e Tensor Parallelism
  • stable-diffusion.cpp: motor em C++ que permite executar o Z-Image até em ambientes com 4 GB de VRAM
  • LeMiCa: oferece aceleração de inferência no nível de timestep sem necessidade de treinamento
  • ComfyUI ZImageLatent: fornece uma interface latent simplificada para a resolução oficial

Resumo

  • O Z-Image é um modelo open source de geração de imagens de alto desempenho que combina uma arquitetura eficiente (S3-DiT) com técnicas inovadoras de destilação (Decoupled-DMD, DMDR)
  • O Z-Image-Turbo alcança simultaneamente inferência rápida e alta qualidade, podendo ser executado até em GPUs de consumo
  • O Z-Image-Edit oferece edição de imagens precisa com base em linguagem natural
  • No Alibaba AI Arena, registrou uma das melhores pontuações de preferência humana entre os modelos open source
  • O ecossistema do Z-Image está se expandindo como uma plataforma de modelos generativos de uso geral, integrada a diversos projetos da comunidade

3 comentários

 
crawler 2025-12-09

A arte local realmente ficou por muito tempo no SDXL, então estou animado porque parece que finalmente surgiu um bom modelo base.
Acima de tudo, quando o Stable Diffusion ficou famoso, a censura ficou tão pesada que era difícil até treinar, então é realmente impressionante que este também não tenha censura.

 
wedding 2025-12-08

Fiquei curioso e testei. Como não há censura, parece que isso pode virar uma faca bem afiada...

 
GN⁺ 2025-12-08
Comentários do Hacker News
  • Testei o Z-Image Turbo na semana passada

    • É muito rápido, cerca de 3 segundos numa RTX 4090, e a capacidade de manter a consistência da imagem é impressionante mesmo em resoluções de 1536x1024 até 2048x2048
    • Para um modelo de 6B parâmetros, a precisão é impressionante
    • É especialmente eficaz ao fazer pós-processamento (refiner) nos resultados do Qwen-Image 20b. O Qwen entende muito bem o prompt, mas tende a deixar a imagem suavizada e borrada
    • Amostras de teste
    • Na RTX 4090 leva 3 segundos, mas no M1 Ultra demora 8 segundos por passo; com os 9 passos padrão, passa de 1 minuto
    • Dá para perceber o quanto o Apple Silicon está atrás no processamento de modelos não linguísticos
    • No fal.ai, é possível gerar em menos de 1 segundo. Combinando com LoRA, dá para criar imagens personalizadas em menos de 3 segundos
    • Mesmo comparado com seedream, nanobanana e outros, entra facilmente no top 5 pela combinação de velocidade e qualidade
    • Ainda assim, durante os testes só 2 de 4 passaram; por exemplo, a barra KitKat saiu com forma e logo totalmente diferentes, e a DNA armor apareceu só como material metálico comum
    • Há um erro de digitação no link do GitHub (gitub), que leva a um site malicioso, então é preciso cuidado
    • A China está, na prática, sustentando o ecossistema de IA de pesos abertos. Se ainda sobrar mercado para GPUs de consumo no futuro, provavelmente será graças à China
  • É surpreendente ver esse nível de resultado com 6B parâmetros

    • A comunidade adotou esse modelo rapidamente, e o Flux(2) já está quase esquecido
    • O Z-Image está ganhando ainda mais popularidade por ser um modelo sem censura. Já a BFL, criadora do Flux 2, dedicou boa parte do release a enfatizar “segurança” (ou seja, censura)
    • Mas essa “segurança” dizia respeito mais à política do serviço online do que ao modelo em si. Na prática, dá para gerar sem restrições
    • As menções a “segurança” são, na verdade, só uma mensagem para investidores: “nós não vamos te colocar em apuros
    • A expressão “lobotomizing” é curiosa. Fico me perguntando o que isso significa quando aplicada a modelos de geração de imagem
    • Mas, se esse modelo for chinês, talvez ele não consiga gerar imagens do Xi Jinping
  • Esse modelo foi abordado recentemente no podcast Pretrained

    • Ele tem uma arquitetura eficiente, reaproveitando backbones existentes para codificação de texto e tokens semânticos
    • Foi treinado com dados de legendas sintéticas de vários comprimentos, o que melhora sua compreensão de texto
    • O OCR de texto dentro da imagem também foi incluído no treinamento, melhorando a qualidade da geração de texto. O Nano Banana Pro evoluiu de forma parecida
  • No PDF oficial de demonstração, há quase 50 fotos de mulheres sozinhas, mas apenas 2 de homens sozinhos

    • O mercado-alvo imaginado pelos desenvolvedores está bem claro
    • Na prática, se olhar sites como o civitai, a maior parte das imagens geradas por usuários e das LoRAs reflete esse mercado
    • No fim, essa tecnologia está sendo impulsionada pelos desejos do público masculino jovem
    • Pela reação da comunidade r/stablediffusion, o Flux 2 parece efetivamente morto. Ele tem muito mais conhecimento, mas o Z-Image é mais popular
    • Curiosamente, um dos modelos masculinos é literalmente Tony Leung sem nenhuma alteração
    • Por estar sem censura, o modelo parece se encaixar melhor nesse mercado
  • Quando usei pessoalmente, achei decepcionante

    • À primeira vista parece bom, mas na prática a capacidade de seguir prompts era fraca, e expressões como “most cultures” viravam imagens em estilo cartum
  • O Z-Image está sendo visto como o verdadeiro sucessor do Stable Diffusion 1.5

    • Qualidade, escalabilidade e viabilidade de rodar localmente melhoraram, e um ecossistema está se formando rapidamente
    • Mas dá vontade de perguntar se o pessoal esqueceu do SDXL. Ele foi lançado há apenas dois anos e meio
  • Testei no Framework Desktop, mas o ComfyUI causava um erro de kernel amdgpu por volta dos 40 passos, então escrevi meu próprio código de contorno

    • Consegui resultados decentes com LoRA, e mesmo com 8 passos (15 a 20 segundos) já dá para gerar imagens bem agradáveis
    • Criei um nó de reforço de prompt baseado em llama.cpp para melhorar a qualidade
  • É impressionante que caiba tanto conhecimento de mundo em 16GiB

    • Ainda está no começo, mas no futuro a IA local deve evoluir para algo mais personalizado e hackeável
    • Acho que vem aí um futuro centrado em modelos inteligentes como o Nano Banana
    • Para uso realmente valioso, é preciso poder injetar camadas de controle diretamente no modelo
    • Espero que um dia um modelo no nível do Nano Banana Pro também rode localmente
  • Mas esse modelo também sofre impacto da censura chinesa

    • Se pedir “Tank Man” ou “Lady Liberty Hong Kong”, ele só exibe a frase “Maybe Not Safe”
  • Como iniciante em IA, fiquei curioso se isso rodaria num MacBook de 24GB

    • Na prática, num MacBook Pro M5, levaram 399 segundos para gerar uma imagem, e o sistema ficou travado nesse tempo
    • No replicate.com, sai 1 imagem em 1,5 segundo, por cerca de 1 dólar a cada 1000 imagens, então é muito mais eficiente
    • A conclusão é que rodar localmente no Mac é ineficiente
    • Para iniciantes, o ComfyUI para macOS é o mais fácil. Basta importar o workflow do Z-Image e ele instala o modelo automaticamente e já executa
    • Também há como rodar com koboldcpp em Linux, Windows e Mac. É só carregar o arquivo de configuração e usar diretamente no servidor local (http://localhost:5001/sdui)