- Um modelo de próxima geração para geração de imagens que implementa uma arquitetura única que integra geração e edição de texto e imagem
- Suporta instruções de 1k tokens, gerando diretamente infográficos complexos como PPTs, pôsteres e quadrinhos
- Alcança ao mesmo tempo descrições realistas detalhadas com base em resolução 2K e renderização precisa de texto
- Com um modelo mais leve, aumenta a velocidade de inferência e registra ótimo desempenho tanto em benchmarks de texto-para-imagem quanto de imagem-para-imagem
- Maximiza a eficiência na criação de conteúdo visual profissional com cinco características centrais: precisão (准), complexidade (多), estética (美), realismo (真) e alinhamento (齐)
Visão geral do Qwen-Image-2.0
- O Qwen-Image-2.0 é um modelo base de próxima geração para geração de imagens que adota uma arquitetura única integrando renderização de texto e edição de imagens
- Processa instruções de 1k tokens para gerar diretamente infográficos profissionais como PPTs, pôsteres e quadrinhos
- Expressa cenas realistas detalhadas, como pessoas, natureza e arquitetura, em resolução 2K
- Com a integração entre compreensão e geração de texto, executa geração e edição de imagens em um único modo
- Garante alta velocidade de inferência com uma arquitetura de modelo leve
- No teste cego do AI Arena, registrou excelente desempenho tanto em tarefas de texto-para-imagem quanto de imagem-para-imagem
Processo de evolução do modelo
- A série Qwen-Image vem evoluindo em paralelo nas trilhas de geração e de edição
- Em agosto de 2025, o Qwen-Image reforçou a precisão da renderização de texto
- Em dezembro de 2025, o Qwen-Image-2512 melhorou os detalhes e o fotorrealismo
- Na trilha de edição, houve expansão de edição de imagem única (agosto) → edição de múltiplas imagens (setembro) → melhoria de consistência (dezembro)
- O Qwen-Image-2.0 combina essas duas trilhas em um único modelo integrado, alcançando resultados de destaque tanto em geração quanto em edição
Precisão (准) e complexidade (多)
- O modelo implementa com precisão composições complexas de “imagem dentro da imagem”, aumentando a eficiência na produção de PPTs
- Como exemplo, gera uma cena composta com duas imagens da mesma pessoa dispostas verticalmente, mantendo a consistência visual
- Com instruções de 1k tokens, renderiza por completo infográficos com estrutura em múltiplas camadas, como um relatório de teste A/B
- É capaz de gerar materiais visuais de nível profissional com elementos complexos como tabelas, gráficos, valores numéricos e anotações
- Aproveitando o conhecimento de mundo de um LLM, pode expandir automaticamente pedidos simples em prompts descritivos detalhados
- Ex.: o pedido “pôster de viagem de dois dias para Hangzhou” pode ser convertido em uma composição detalhada de estilo, fundo e texto
Estética (美)
- Implementa a harmonia formal entre texto e imagem
- Reproduz com precisão o estilo tradicional chinês de caligrafia e pintura com composição integrada entre poesia e imagem
- Representa com precisão diversos estilos de fonte, como 瘦金体 e Sojache
- Como exemplo, quase reproduz perfeitamente em Sojache uma pintura a tinta com poesia da dinastia Song ou o 「兰亭序」 de Wang Xizhi
Realismo (真)
- Reforça a sensação de realidade ao representar com precisão reflexos ópticos, materiais e perspectiva
- Ex.: renderiza corretamente texto sobre materiais diferentes, como quadro branco de vidro, roupas e capa de revista
- Implementa uma expressão integrada de iluminação, textura e material em nível de pôster de cinema
- Ex.: no pôster de 「千灯问心」, metal, chuva e textura de tecido se fundem de forma natural
Alinhamento (齐)
- Ajusta automaticamente alinhamento e disposição em estruturas com múltiplos textos, como calendários, quadrinhos e infográficos
- Ex.: em um calendário de fevereiro de 2026, alinha corretamente datas, calendário lunar e anotações dentro da grade
- Centraliza o texto dos balões em quadrinhos para criar um fluxo de diálogo natural
- Em um infográfico de OKR, alinha automaticamente blocos de texto e setas, além de diferenciá-los por cor
Reforço do fotorrealismo
- Distingue mais de 23 tonalidades de verde para expressar o realismo ecológico de uma floresta de verão
- Descreve com minúcia a textura das folhas, reflexos de luz, umidade e até partículas suspensas no ar
- Reproduz com precisão músculos, expressões e texturas de corpos humanos e animais
- Ex.: em uma cena de um cavalo pisando em uma pessoa, representa até a tensão muscular, a textura da pele e partículas de poeira
Recursos de edição de imagem
- Como um modelo Omni que integra geração e edição, melhorias no lado da geração são refletidas diretamente na edição
- Permite inserir poemas e texto sobre imagens existentes
- Faz composição de pessoas de duas imagens, mantendo correspondência natural de luz e sombra
- Também permite edição híbrida de fotos realistas com personagens de cartoon
- Ex.: oferece resultados de integração natural em casos como fotos compostas de duas pessoas ou inserção de personagens sobre fotos urbanas
Imagem de cabeçalho do blog “Qwen Street”
- Tendo como fundo uma paisagem de rua no inverno em Pequim, duas lojas simbolizam os principais recursos do Qwen-Image-2.0
- Letreiro da loja de caligrafia à esquerda: “文字渲染”, com “专业幻灯片 中英文海报 高级信息图” no interior
- Letreiro da floricultura à direita: “真实质感”, com a indicação “2k resolution” acima da porta
- Quadro negro segurado pelo boneco de neve ao centro: “Qwen-Image-2.0 正式发布”
- Na rua aparece um entregador com a frase “更小模型,更快速度”
Conclusão
- O Qwen-Image-2.0 é um modelo integrado de geração de imagens que reúne precisão, complexidade, estética, realismo e alinhamento
- Ao dissolver a fronteira entre texto e imagem, eleva significativamente o nível de automação na criação de infográficos profissionais e conteúdo visual
- Para uso em pesquisa ou criação, recomenda-se citar o Qwen-Image Technical Report (arXiv:2508.02324)
1 comentários
Comentários no Hacker News
Esse meme surgiu de um incidente em que o famoso apresentador chinês Tsai Kang-yung (蔡康永) apareceu numa premiação com uma fantasia de cavalo presa às costas
Na época, ele estava envolvido em rumores com um homem chamado Ma Qiren (马启仁), e esse nome tem pronúncia igual em chinês a “pessoa montando um cavalo (马骑人)”
O caso se espalhou pela internet e virou meme, então o exemplo “horse riding man” não é totalmente aleatório
Ainda assim, a imagem em si continua passando uma atmosfera sinistra e estranha
Link da foto
Normalmente o mais fácil é o contrário, “uma pessoa montando um cavalo”, enquanto “um cavalo montando uma pessoa” é um embedding mais difícil
Pela tradução do prompt, também havia uma nuance satírica de “o ano do cavalo conquista um engenheiro branco”
Não quero ver como o SD1.5 desenharia isso
Ou seja, o nome soa como “pessoa montando um cavalo”, mas não é uma tradução literal
Texto relacionado: Horse Rides Astronaut Redux
Por exemplo, imagino que empresas americanas ficariam receosas de usar esse tipo de imagem em cronogramas ou peças promocionais por medo de reação negativa
Imagem de exemplo
Ele conseguia gerar bem uma imagem de “um astronauta montando um cavalo”, mas fracassava repetidamente em “um cavalo montando um astronauta”
Esse problema continuou mesmo em modelos mais novos, e a equipe do Qwen Image provavelmente tinha esse benchmark difícil em mente
No fim, como “astronauta = pessoa”, esse teste se conecta ao meme chinês
1️⃣ Pelo padrão de lançamentos anteriores, a chance de sair com open weights em 3 a 4 semanas é alta
2️⃣ Parece mirar em algo como Z‑Image Turbo(6B) e Flux.2 Klein(9B): modelos que rodam até em GPUs mais modestas
3️⃣ Como é um modelo único que integra geração e edição de imagem, não há necessidade de separar Qwen‑Image e Qwen‑Edit
4️⃣ No meu GenAI Showdown, o Qwen‑Image ficou em 1º entre os modelos locais em edição, e também entre os melhores em geração
Quando sair uma versão local, pretendo adicioná-la ao site
Então, num modelo de 20B, 20 GB de RAM já bastam, e nessa escala até iGPU pode dar conta
Uma configuração com 128 GB de RAM unificada pode sair por algo em torno de 2.200 dólares
É um setup bem mais barato do que comprar uma GPU dedicada
Ele usava uma VAE própria, mas tinha problema de artefatos de alta frequência
O novo Qwen 2 caiu para 7B parâmetros e ficou bem mais leve, com upgrade para Qwen 3 VL
Agora ele evoluiu para um modelo Omni que junta Image e Edit
Z‑Image, Klein e Qwen estão os três competindo ao mesmo tempo pelo posto de “SDXL2”
Se os open weights forem liberados, vai ser realmente muito interessante
A cada 3 ou 4 meses o SOTA muda, e a inovação do trimestre passado vira produto de API
Agora o gargalo já não é o modelo, e sim quem sabe trabalhar com prompts
O mesmo padrão aparece na geração de código
Ele é composto por descrições extremamente realistas, como uma estepe desolada, poeira e a cena de um cavalo marrom esmagando um homem
No geral, é uma imagem que expressa tensão primordial e choque de força biológica
Link relacionado
Mas como ele não oferece suporte a geração de imagem, fiquei curioso sobre que ferramentas o pessoal usa para rodar modelos de difusão como o Qwen no Linux
A comunidade já faz todo o trabalho de quantização, conversão para formato gguf e otimização de velocidade
Uso principalmente
diffusers; é mais lento, mas o suporte a novas arquiteturas chega rápidoSite / Notas de lançamento
Para ficar natural, deveria usar pontuação vertical específica, por exemplo ︒
O LinkedIn está lotado desse tipo de imagem
Quase ninguém sabe fazer ou explicar um bom infográfico
Para outro exemplo, veja a thread de Gas Town
A última divulgação foi por volta de dezembro de 2025
Com o mesmo prompt do blog, funciona bem, mas se eu mudar um pouquinho a entrada, a quantidade de painéis sai errada ou os diálogos em inglês viram chinês
Ou seja, ainda é um recurso com pouca consistência
Enfim, cada um com suas escolhas