Qwen-Image: modelo de geração de imagens com renderização de texto nativa

(qwenlm.github.io)

1 pontos por GN⁺ 2025-08-05 | 1 comentários | Compartilhar no WhatsApp

Qwen-Image é um modelo base de geração de imagens MMDiT de 20B parâmetros com forte capacidade em renderização nativa de texto e edição de imagem precisa
Alcançou alta precisão e acabamento visual em expressões complexas de caracteres de vários idiomas, incluindo alfabetos e caracteres de ideogramas
Em diversos benchmarks públicos (GenEval, DPG, OneIG-Bench etc.), atinge desempenho de ponta de sua categoria, com excelente capacidade de geração de texto
Em demos reais, reproduz com precisão layouts complexos e estilos variados em cenários multilíngues, pôsteres, PPT e ilustrações
Suporta recursos de edição como transformação de estilo, adição/remoção de objetos, descrição detalhada e alteração de pose, com foco em ampliar o ecossistema de código aberto

Introdução e principais recursos

Qwen-Image é um modelo base de geração de imagem MMDiT baseado em 20B parâmetros especializado em renderização de texto complexa e edição de imagem precisa
É possível experimentar o modelo mais recente no Qwen Chat

Principais recursos

Excelente renderização de texto: suporte para layouts multi-linha, compreensão semântica em nível de parágrafo e expressão minuciosa
- Suporte de alta fidelidade tanto para sistemas baseados em alfabeto quanto logográficos, incluindo inglês e caracteres chineses
Edição de imagem consistente: preserva precisão semântica e realismo visual por meio de treinamento multitarefa aprimorado
Desempenho robusto em benchmarks: alcança o melhor desempenho de sua categoria em tarefas de geração e edição em diversos benchmarks públicos
Na área de geração/edição de texto, registra ótimos resultados em LongText-Bench, ChineseWord, TextCraft
Amplo potencial de uso em criação, design e storytelling

Desempenho e benchmarks

O Qwen-Image alcança desempenho SOTA (estado da arte) em GenEval, DPG, OneIG-Bench (geração de imagem geral), GEdit, ImgEdit, GSO (edição) e outros benchmarks
Especialmente em geração de texto em chinês, supera amplamente os modelos líderes anteriores
Combinando capacidades gerais amplas com renderização precisa de texto, posiciona-se como um modelo de destaque em geração de imagens

Exemplos de demonstração

Expressão de texto em chinês

Com base em prompts de exemplo, representa com precisão “云存储”, “云计算”, “云模型” e caracteres chineses incomuns como “千问” no estilo de animação da Miyazaki, de forma ao mesmo tempo realista
Também implementa naturalmente poses, expressões faciais e profundidade de cena

Expressão paralela de ideogramas complexos

Representa com delicadeza detalhes sofisticados, como pares de versos, caligrafia e motivos de estilo Qinghua
Fonte, layout e ilustração (ex.: 岳阳楼) são gerados de forma perfeitamente fiel e semelhante à realidade

Texto em inglês e múltiplas linhas

Reflete detalhadamente texto em múltiplas posições, como estantes de livraria, placas informativas e pôsteres
Implementa fontes e layout realistas, de “New Arrivals This Week” até frases curtas de capas de livros

Infográfico complexo em inglês

Posiciona com precisão módulos separados por ícone + título + parágrafo de descrição
Produz infográficos complexos com tema “Habits for Emotional Wellbeing” em acabamento artístico natural e composição equilibrada

Texto pequeno e longo

Implementa detalhes de textos manuscritos longos até em áreas pequenas de menos de 1/10 da imagem
Reproduz com precisão grande volume de frases, incluindo escrita manual, layout e quebras de linha

Mistura multilíngue

Implementa com escrita manual, no mesmo visual, inglês e chinês em uma única imagem
Gera texto naturalmente conforme a alternância de idioma no prompt

Geração de pôsteres

Combina livremente elementos de texto e visual, como pôsteres de filmes, subtítulos, elenco, diretor e informações de lançamento, em estilos diversos como Sci-Fi e design gráfico

Exemplo de PPT em português

Gera de forma coesa estilos atuais de PPT de IA/empresarial, incluindo logotipo da Alibaba, título principal, subtítulo, posicionamento de imagem de obra de arte, fontes caligráficas e descrições detalhadas

Geração e edição de imagem geral

Suporte a diversos estilos artísticos como fotorrealista, impressionista, anime, minimalista, oferecendo ampla utilidade criativa
Suporta comandos de edição práticos, como transformação de estilo, adição/remoção de objetos, aprimoramento de detalhes, edição de texto e ajuste de poses humanas

Conclusão

O Qwen-Image tem como objetivo expandir os horizontes da geração de imagens, reduzir a barreira técnica para produção de conteúdo visual e impulsionar usos criativos
Foca em colaboração comunitária, abertura e construção de um ecossistema de IA generativa sustentável
Prevê aprimorar recursos e expandir o ecossistema aberto com base no uso real e feedback de usuários

1 comentários

GN⁺ 2025-08-05

Comentários do Hacker News

Não sei por que isso não virou um alvoroço maior —– este não é só o primeiro modelo open source que supera o gpt-image-1 em todos os aspectos, como também é um modelo que leva vantagem sobre o Flux Kontext até em capacidade de edição. Isso é enorme
- Brinquei com esse modelo por cerca de uma hora. No geral, ele é realmente muito bom, mas nos testes iniciais que fiz, em aderência a prompts relativamente complexos, ele mostrou desempenho claramente abaixo do gpt-image-1 (ou Imagen 3/4). A taxa de sucesso ficou em torno de ~50%, enquanto o gpt-image-1 ficou em ~75%. Não conseguiu lidar com labirintos, equação de Schrödinger etc. Testei no site genai showdown
- Pelos seus materiais é difícil afirmar com certeza, mas o modelo de edição ainda não foi lançado oficialmente. Consulte o link de comentário da issue no GitHub
- Na minha opinião, ele consegue fazer claramente mais coisas do que o gpt-image-1. Conversão de estilo, adição/remoção de objetos, edição de texto, manipulação de pose de pessoas, além de detecção de objetos, segmentação semântica, estimativa de profundidade/bordas, super-resolução e síntese de novo ponto de vista (NVS), isto é, gerar imagens de um novo ângulo a partir da imagem-base. É uma explosão de recursos. Pelos resultados iniciais, o gpt-image-1 parece um pouco melhor em definição e nitidez. Sinceramente, tenho a impressão de que a OpenAI talvez esteja aplicando um pós-processamento simples, tipo uma máscara de unsharp. Até em áreas desfocadas aparece uma nitidez estranhamente uniforme, e às vezes dá uma sensação de excesso. Mesmo assim, no geral o modelo parece estar em nível quase igual. Achei que a tecnologia de geração de imagem exclusiva da OpenAI manteria a vantagem este ano, mas ver isso assim surpreende. Ah, o Flux Kontext foi lançado há apenas 4 dias! Se esse modelo for realmente de qualidade parecida com o gpt-image-1, isso é uma mudança surpreendente
- Pelo que sei, o fato de ele precisar de 40GB de VRAM parece esfriar um pouco o entusiasmo do pessoal. Só para lembrar: a tecnologia de distribuição em várias GPUs já é bem madura para LLMs, mas nos modelos de imagem eu não entendo por que isso ainda está lento mesmo usando GGUF. Fico pensando que, quanto maiores ficarem os modelos de imagem, mais execução distribuída vai passar a ser implementada
- Ainda se passaram poucas horas e o demo continua com erros, então acho que as pessoas vão precisar de mais tempo para testar direito. A chegada de GGUF quantizado e de workflows de Comfy diferentes também deve ser um fator importante. Isso porque a maioria dos usuários vai querer rodar localmente. Mas o tamanho é bem grande em comparação com outros modelos. Curiosamente, a principal comparação é mais entre os próprios da Alibaba do que com o Flux. Por exemplo, o Wan 2.2 já é super popular para geração de imagem, então a maior curiosidade é quão grande foi o salto do Qwen-Image em relação ao Wan 2.2. O ponto mais útil para avaliar modelos novos de imagem costuma ser em torno de uma semana após o lançamento. Por volta de então, os usuários já testaram bastante e os prós e contras sob uma perspectiva de terceiros ficam bem consolidados. A expectativa para esse modelo também é grande
Bom release! Adicionei ao site GenAI Showdown. É um modelo bem bom, com cerca de 40% de pontuação geral, especialmente como modelo SOTA que pode rodar em GPU de consumidor (ainda mais a versão quantizada). De fato, em seguir com precisão prompts txt2img, fica significativamente abaixo do gpt-image-1 da OpenAI. Mesmo assim, como também foi mencionado neste thread, uma vantagem é que esse modelo faz vários trabalhos como edição. Também dá para conferir no genai showdown
- Só lembrando, acho que não é adequado comparar Imagen 3 e 4 como se fossem o mesmo, já que são modelos distintos
Para quem faz isso com frequência, pode parecer óbvio, mas fico curioso sobre a especificação de hardware para rodar isso. Testei numa máquina Linux com GPU de 16GB e 64GB de RAM. Nesse PC, SD funciona sem problema. Mas no Qwen-Image, rodando em GPU ou em CPU, apareceu erro de falta de memória. Fico em dúvida se isso é só uma deficiência considerável, se dobrar já resolve, se precisa de dezenas de vezes mais ou se de fato exige hardware insano
- Isso pode parecer óbvio para quem faz isso com frequência, mas não é tão óbvio assim. O cálculo de VRAM em VLM/LLM é quase uma área de mágica. Existem por aí umas 10 calculadoras online, mas nenhuma dá resultado certo. Quantização, cache KV, ativação, camada etc. têm vários fatores em jogo. É uma parte muito chata. De qualquer forma, para esse modelo são necessários mais de 40GB de VRAM. RAM de sistema normal é insuficiente (a menos que seja memória unificada no Apple Silicon). Até no Apple Silicon a banda de memória é baixa e a inferência fica bem mais lenta que em GPU/TPU
- Quanto ao tamanho do arquivo do modelo, penso que vai ficar quase igual. No diretório transformers tem cerca de 9 arquivos de 5GB, então dá para pensar que seriam necessários uns 45GB de VRAM na GPU. Geralmente espero que em breve saia uma versão quantizada mais leve (aceitando perda de qualidade)
- O Qwen-Image precisa de pelo menos 24GB de VRAM no modelo completo. Mas a versão quantizada em 4 bits consegue rodar em torno de 8GB de VRAM com bibliotecas como AutoGPTQ
- Parece que teremos que esperar alguns dias para sair a versão quantizada em 4 bits. O número de parâmetros é 20B
- Em ambiente de inferência de produção, roda bem com 1xH100
Diferente de outros modelos de geração de imagem, surpreende o fato de não alterar toda a imagem desnecessariamente como o 4o image gen. No 4o, quando se tenta editar só a roupa, o rosto também muda; esse modelo parece inserir os sinais artificiais da IA apenas na parte que precisa de edição
- Foi por isso que o Flux Kontext virou um grande destaque — o que era inovador foi dar o poder de inpainting img2img sem exigir mascaramento manual. Veja o blog de edição
- No 4o também é possível selecionar só a área que quer editar e deixar o resto igual
Os modelos open source chineses estão saindo incrivelmente bons ultimamente. Cada vez que recebo essas notícias, realmente aparece esperança
Alguém sabe como treinam a renderização de texto em modelos desse tipo? Todos os modelos que testei (incluindo OpenAI e Flux) têm o mesmo problema: texto pouco natural e sombras/reflexos que ficam estranhos em relação à imagem original. Parece que estão usando um truque parecido
- Está explicado na página 14 do relatório técnico. Diz que os autores criam dados sintéticos sobrepondo texto sobre a imagem. Pelo visto, o treino ocorreu só com essa sobreposição sem considerar as condições de iluminação originais. Garbage in, garbage out. Tomara que no futuro apareça um método de síntese de texto mais realista e, treinado com isso, surja um modelo que gere texto naturalmente
Também recomendo conferir a parte 3.2 (Data Filtering) do paper. Consulte o PDF original do paper
- Um ponto interessante é que não há menção nem exemplos em idiomas além de inglês e chinês
Fico curioso sobre qual a menor configuração de placa de vídeo para obter resultados razoáveis ao hospedar isso para uso próprio
O canvas é curto
Quão severa é a censura
- A cada novo modelo lançado, isso é sempre o que a comunidade mais quer saber, e de fato nenhuma organização quer encarar de frente a parte incômoda da natureza humana. Ao mesmo tempo, parece haver uma estranha mistura de prudência e puritanismo tanto na sociedade quanto nas empresas dos EUA

Qwen-Image: modelo de geração de imagens com renderização de texto nativa

Introdução e principais recursos

Principais recursos

Desempenho e benchmarks

Exemplos de demonstração

Expressão de texto em chinês

Expressão paralela de ideogramas complexos

Texto em inglês e múltiplas linhas

Infográfico complexo em inglês

Texto pequeno e longo

Mistura multilíngue

Geração de pôsteres

Exemplo de PPT em português

Geração e edição de imagem geral

Conclusão

Leituras relacionadas

1 comentários

Comentários do Hacker News