- Modelo de geração de imagens da Alibaba com desempenho em nível Nano Banana Pro, open source sob a licença Apache 2.0
- Modelo eficiente de geração de imagens com 6B parâmetros, baseado em um Single-Stream Diffusion Transformer
- Composto por três versões, o Z-Image-Turbo alcança qualidade no nível de modelos concorrentes com apenas 8 etapas de inferência e funciona até em ambientes com 16 GB de VRAM
- O Z-Image-Edit oferece recursos de edição de imagem baseados em instruções em linguagem natural, e o Z-Image-Base será lançado como modelo-base para fine-tuning da comunidade
- O modelo adota a arquitetura S3-DiT, integrando tokens de texto, visão e VAE em uma única sequência para maximizar a eficiência de parâmetros
- Com os algoritmos Decoupled-DMD e DMDR, gera imagens de alta qualidade mesmo com poucas etapas e registra desempenho entre os melhores dos modelos open source
Visão geral do Z-Image
- O Z-Image é um modelo fundacional de geração de imagens que combina eficiência e desempenho, usando uma arquitetura Single-Stream Diffusion Transformer
- Baseado em 6 bilhões de parâmetros, oferece três variantes: Z-Image-Turbo, Z-Image-Base e Z-Image-Edit
- Z-Image-Turbo: gera imagens de alta qualidade com apenas 8 avaliações de função (NFE), com latência de inferência inferior a 1 segundo em GPU H800
- Z-Image-Base: modelo-base não destilado, com suporte a fine-tuning e desenvolvimento customizado pela comunidade
- Z-Image-Edit: versão especializada em edição de imagens, com transformação de imagens baseada em linguagem natural
Principais recursos e desempenho
- O Z-Image-Turbo produz com precisão imagens fotorrealistas e renderização de texto bilíngue em inglês e chinês
- O recurso Prompt Enhancer reforça a capacidade de descrição com base em raciocínio e conhecimento de mundo
- O Z-Image-Edit oferece suporte a transformações criativas de imagem e compreensão precisa de instruções
- Registrou desempenho entre os melhores dos modelos open source na avaliação de preferência humana baseada em Elo do Alibaba AI Arena
Arquitetura do modelo (S3-DiT)
- Adota a estrutura Scalable Single-Stream DiT (S3-DiT)
- Combina tokens de texto, tokens semânticos visuais e tokens VAE de imagem em uma única sequência
- Maximiza a eficiência de parâmetros em comparação com a arquitetura tradicional de duplo fluxo
- Essa estrutura possibilita o aprendizado de representações integradas de texto e imagem
Algoritmos principais
-
Decoupled-DMD
- Decoupled-DMD é o algoritmo central de destilação que torna possível a inferência em 8 etapas do Z-Image
- Separa o DMD (Distribution Matching Distillation) tradicional em dois mecanismos: CFG Augmentation (CA) e Distribution Matching (DM)
- CA atua como o motor principal do processo de destilação
- DM funciona como regularização para manter a estabilidade e a qualidade da saída
- Ao separar e otimizar os dois mecanismos, alcança geração de imagens de alto desempenho mesmo com poucas etapas
-
DMDR
- DMDR (Distribution Matching Distillation with Reinforcement Learning) é uma técnica de pós-processamento que combina DMD com aprendizado por reforço (RL)
- O RL maximiza o desempenho do DMD, enquanto o DMD regulariza o RL, formando uma estrutura complementar
- Com isso, melhora a coerência semântica, a qualidade estética e a consistência estrutural, além de reforçar a capacidade de representar detalhes de alta frequência
Suporte à comunidade e ao ecossistema
- Cache-DiT: suporte à aceleração de inferência por meio de DBCache, Context Parallelism e Tensor Parallelism
- stable-diffusion.cpp: motor em C++ que permite executar o Z-Image até em ambientes com 4 GB de VRAM
- LeMiCa: oferece aceleração de inferência no nível de timestep sem necessidade de treinamento
- ComfyUI ZImageLatent: fornece uma interface latent simplificada para a resolução oficial
Resumo
- O Z-Image é um modelo open source de geração de imagens de alto desempenho que combina uma arquitetura eficiente (S3-DiT) com técnicas inovadoras de destilação (Decoupled-DMD, DMDR)
- O Z-Image-Turbo alcança simultaneamente inferência rápida e alta qualidade, podendo ser executado até em GPUs de consumo
- O Z-Image-Edit oferece edição de imagens precisa com base em linguagem natural
- No Alibaba AI Arena, registrou uma das melhores pontuações de preferência humana entre os modelos open source
- O ecossistema do Z-Image está se expandindo como uma plataforma de modelos generativos de uso geral, integrada a diversos projetos da comunidade
3 comentários
A arte local realmente ficou por muito tempo no SDXL, então estou animado porque parece que finalmente surgiu um bom modelo base.
Acima de tudo, quando o Stable Diffusion ficou famoso, a censura ficou tão pesada que era difícil até treinar, então é realmente impressionante que este também não tenha censura.
Fiquei curioso e testei. Como não há censura, parece que isso pode virar uma faca bem afiada...
Comentários do Hacker News
Testei o Z-Image Turbo na semana passada
refiner) nos resultados do Qwen-Image 20b. O Qwen entende muito bem o prompt, mas tende a deixar a imagem suavizada e borradagitub), que leva a um site malicioso, então é preciso cuidadoÉ surpreendente ver esse nível de resultado com 6B parâmetros
Esse modelo foi abordado recentemente no podcast Pretrained
No PDF oficial de demonstração, há quase 50 fotos de mulheres sozinhas, mas apenas 2 de homens sozinhos
Quando usei pessoalmente, achei decepcionante
O Z-Image está sendo visto como o verdadeiro sucessor do Stable Diffusion 1.5
Testei no Framework Desktop, mas o ComfyUI causava um erro de kernel amdgpu por volta dos 40 passos, então escrevi meu próprio código de contorno
É impressionante que caiba tanto conhecimento de mundo em 16GiB
Mas esse modelo também sofre impacto da censura chinesa
Como iniciante em IA, fiquei curioso se isso rodaria num MacBook de 24GB
http://localhost:5001/sdui)