10 pontos por GN⁺ 2026-02-11 | 1 comentários | Compartilhar no WhatsApp
  • Um modelo de próxima geração para geração de imagens que implementa uma arquitetura única que integra geração e edição de texto e imagem
  • Suporta instruções de 1k tokens, gerando diretamente infográficos complexos como PPTs, pôsteres e quadrinhos
  • Alcança ao mesmo tempo descrições realistas detalhadas com base em resolução 2K e renderização precisa de texto
  • Com um modelo mais leve, aumenta a velocidade de inferência e registra ótimo desempenho tanto em benchmarks de texto-para-imagem quanto de imagem-para-imagem
  • Maximiza a eficiência na criação de conteúdo visual profissional com cinco características centrais: precisão (准), complexidade (多), estética (美), realismo (真) e alinhamento (齐)

Visão geral do Qwen-Image-2.0

  • O Qwen-Image-2.0 é um modelo base de próxima geração para geração de imagens que adota uma arquitetura única integrando renderização de texto e edição de imagens
    • Processa instruções de 1k tokens para gerar diretamente infográficos profissionais como PPTs, pôsteres e quadrinhos
    • Expressa cenas realistas detalhadas, como pessoas, natureza e arquitetura, em resolução 2K
    • Com a integração entre compreensão e geração de texto, executa geração e edição de imagens em um único modo
    • Garante alta velocidade de inferência com uma arquitetura de modelo leve
  • No teste cego do AI Arena, registrou excelente desempenho tanto em tarefas de texto-para-imagem quanto de imagem-para-imagem

Processo de evolução do modelo

  • A série Qwen-Image vem evoluindo em paralelo nas trilhas de geração e de edição
    • Em agosto de 2025, o Qwen-Image reforçou a precisão da renderização de texto
    • Em dezembro de 2025, o Qwen-Image-2512 melhorou os detalhes e o fotorrealismo
    • Na trilha de edição, houve expansão de edição de imagem única (agosto) → edição de múltiplas imagens (setembro) → melhoria de consistência (dezembro)
  • O Qwen-Image-2.0 combina essas duas trilhas em um único modelo integrado, alcançando resultados de destaque tanto em geração quanto em edição

Precisão (准) e complexidade (多)

  • O modelo implementa com precisão composições complexas de “imagem dentro da imagem”, aumentando a eficiência na produção de PPTs
    • Como exemplo, gera uma cena composta com duas imagens da mesma pessoa dispostas verticalmente, mantendo a consistência visual
  • Com instruções de 1k tokens, renderiza por completo infográficos com estrutura em múltiplas camadas, como um relatório de teste A/B
    • É capaz de gerar materiais visuais de nível profissional com elementos complexos como tabelas, gráficos, valores numéricos e anotações
  • Aproveitando o conhecimento de mundo de um LLM, pode expandir automaticamente pedidos simples em prompts descritivos detalhados
    • Ex.: o pedido “pôster de viagem de dois dias para Hangzhou” pode ser convertido em uma composição detalhada de estilo, fundo e texto

Estética (美)

  • Implementa a harmonia formal entre texto e imagem
    • Reproduz com precisão o estilo tradicional chinês de caligrafia e pintura com composição integrada entre poesia e imagem
    • Representa com precisão diversos estilos de fonte, como 瘦金体 e Sojache
  • Como exemplo, quase reproduz perfeitamente em Sojache uma pintura a tinta com poesia da dinastia Song ou o 「兰亭序」 de Wang Xizhi

Realismo (真)

  • Reforça a sensação de realidade ao representar com precisão reflexos ópticos, materiais e perspectiva
    • Ex.: renderiza corretamente texto sobre materiais diferentes, como quadro branco de vidro, roupas e capa de revista
  • Implementa uma expressão integrada de iluminação, textura e material em nível de pôster de cinema
    • Ex.: no pôster de 「千灯问心」, metal, chuva e textura de tecido se fundem de forma natural

Alinhamento (齐)

  • Ajusta automaticamente alinhamento e disposição em estruturas com múltiplos textos, como calendários, quadrinhos e infográficos
    • Ex.: em um calendário de fevereiro de 2026, alinha corretamente datas, calendário lunar e anotações dentro da grade
    • Centraliza o texto dos balões em quadrinhos para criar um fluxo de diálogo natural
    • Em um infográfico de OKR, alinha automaticamente blocos de texto e setas, além de diferenciá-los por cor

Reforço do fotorrealismo

  • Distingue mais de 23 tonalidades de verde para expressar o realismo ecológico de uma floresta de verão
    • Descreve com minúcia a textura das folhas, reflexos de luz, umidade e até partículas suspensas no ar
  • Reproduz com precisão músculos, expressões e texturas de corpos humanos e animais
    • Ex.: em uma cena de um cavalo pisando em uma pessoa, representa até a tensão muscular, a textura da pele e partículas de poeira

Recursos de edição de imagem

  • Como um modelo Omni que integra geração e edição, melhorias no lado da geração são refletidas diretamente na edição
    • Permite inserir poemas e texto sobre imagens existentes
    • Faz composição de pessoas de duas imagens, mantendo correspondência natural de luz e sombra
    • Também permite edição híbrida de fotos realistas com personagens de cartoon
  • Ex.: oferece resultados de integração natural em casos como fotos compostas de duas pessoas ou inserção de personagens sobre fotos urbanas

Imagem de cabeçalho do blog “Qwen Street”

  • Tendo como fundo uma paisagem de rua no inverno em Pequim, duas lojas simbolizam os principais recursos do Qwen-Image-2.0
    • Letreiro da loja de caligrafia à esquerda: “文字渲染”, com “专业幻灯片 中英文海报 高级信息图” no interior
    • Letreiro da floricultura à direita: “真实质感”, com a indicação “2k resolution” acima da porta
    • Quadro negro segurado pelo boneco de neve ao centro: “Qwen-Image-2.0 正式发布”
    • Na rua aparece um entregador com a frase “更小模型,更快速度”

Conclusão

  • O Qwen-Image-2.0 é um modelo integrado de geração de imagens que reúne precisão, complexidade, estética, realismo e alinhamento
  • Ao dissolver a fronteira entre texto e imagem, eleva significativamente o nível de automação na criação de infográficos profissionais e conteúdo visual
  • Para uso em pesquisa ou criação, recomenda-se citar o Qwen-Image Technical Report (arXiv:2508.02324)

1 comentários

 
GN⁺ 2026-02-11
Comentários no Hacker News
  • Como muita gente achou o exemplo “homem montando cavalo (horse riding man)” muito bizarro, quero explicar o contexto
    Esse meme surgiu de um incidente em que o famoso apresentador chinês Tsai Kang-yung (蔡康永) apareceu numa premiação com uma fantasia de cavalo presa às costas
    Na época, ele estava envolvido em rumores com um homem chamado Ma Qiren (马启仁), e esse nome tem pronúncia igual em chinês a “pessoa montando um cavalo (马骑人)”
    O caso se espalhou pela internet e virou meme, então o exemplo “horse riding man” não é totalmente aleatório
    Ainda assim, a imagem em si continua passando uma atmosfera sinistra e estranha
    Link da foto
    • Contexto interessante. Prompts assim também servem para testar o espaço latente (latent space) dos geradores de imagem
      Normalmente o mais fácil é o contrário, “uma pessoa montando um cavalo”, enquanto “um cavalo montando uma pessoa” é um embedding mais difícil
      Pela tradução do prompt, também havia uma nuance satírica de “o ano do cavalo conquista um engenheiro branco”
      Não quero ver como o SD1.5 desenharia isso
    • Segundo o artigo, o nome real é 马启仁, não 马骑人
      Ou seja, o nome soa como “pessoa montando um cavalo”, mas não é uma tradução literal
    • No mundo da geração de imagens também existe o problema de “astronauta montando um cavalo (astronaut riding a horse)
      Texto relacionado: Horse Rides Astronaut Redux
    • Fiquei curioso se na China também existe, como nos EUA, uma rejeição a imagens geradas por IA
      Por exemplo, imagino que empresas americanas ficariam receosas de usar esse tipo de imagem em cronogramas ou peças promocionais por medo de reação negativa
      Imagem de exemplo
    • Outra influência possível é o famoso problema do DALL‑E 2
      Ele conseguia gerar bem uma imagem de “um astronauta montando um cavalo”, mas fracassava repetidamente em “um cavalo montando um astronauta”
      Esse problema continuou mesmo em modelos mais novos, e a equipe do Qwen Image provavelmente tinha esse benchmark difícil em mente
      No fim, como “astronauta = pessoa”, esse teste se conecta ao meme chinês
  • Organizando alguns pensamentos
    1️⃣ Pelo padrão de lançamentos anteriores, a chance de sair com open weights em 3 a 4 semanas é alta
    2️⃣ Parece mirar em algo como Z‑Image Turbo(6B) e Flux.2 Klein(9B): modelos que rodam até em GPUs mais modestas
    3️⃣ Como é um modelo único que integra geração e edição de imagem, não há necessidade de separar Qwen‑Image e Qwen‑Edit
    4️⃣ No meu GenAI Showdown, o Qwen‑Image ficou em 1º entre os modelos locais em edição, e também entre os melhores em geração
    Quando sair uma versão local, pretendo adicioná-la ao site
    • Para quem não é tão técnico, vale explicar que, com uma boa quantização (quantization), um LLM pode rodar com cerca de 1 byte por parâmetro
      Então, num modelo de 20B, 20 GB de RAM já bastam, e nessa escala até iGPU pode dar conta
      Uma configuração com 128 GB de RAM unificada pode sair por algo em torno de 2.200 dólares
      É um setup bem mais barato do que comprar uma GPU dedicada
    • Tecnicamente, o Qwen 2512 tinha 19B parâmetros e ocupava 40 GB em FP16, cabendo numa 3090 em FP8
      Ele usava uma VAE própria, mas tinha problema de artefatos de alta frequência
      O novo Qwen 2 caiu para 7B parâmetros e ficou bem mais leve, com upgrade para Qwen 3 VL
      Agora ele evoluiu para um modelo Omni que junta Image e Edit
      Z‑Image, Klein e Qwen estão os três competindo ao mesmo tempo pelo posto de “SDXL2”
      Se os open weights forem liberados, vai ser realmente muito interessante
  • Houve um momento, ainda que breve, em que o Midjourney parecia o auge da geração de imagens
    • Ainda não é assim? Muitos criadores que conheço ainda preferem o Midjourney por causa da estética subjetiva
    • Fico me perguntando o que aconteceu com o Midjourney hoje
    • A comoditização da geração de imagens está rápida demais
      A cada 3 ou 4 meses o SOTA muda, e a inovação do trimestre passado vira produto de API
      Agora o gargalo já não é o modelo, e sim quem sabe trabalhar com prompts
      O mesmo padrão aparece na geração de código
  • O conteúdo do prompt “horse riding man” é realmente impactante
    Ele é composto por descrições extremamente realistas, como uma estepe desolada, poeira e a cena de um cavalo marrom esmagando um homem
    No geral, é uma imagem que expressa tensão primordial e choque de força biológica
    • Como referência para quem ficou confuso, existe uma escultura da dinastia Han chamada “cavalo pisoteando um xiongnu”
      Link relacionado
  • Recentemente usei modelos locais no Linux com LMStudio, e foi realmente muito simples
    Mas como ele não oferece suporte a geração de imagem, fiquei curioso sobre que ferramentas o pessoal usa para rodar modelos de difusão como o Qwen no Linux
    • Na prática, a maioria das pessoas que usa essa família de modelos recorre ao ComfyUI
      A comunidade já faz todo o trabalho de quantização, conversão para formato gguf e otimização de velocidade
    • Como tudo muda rápido demais, eu mesmo montei um servidor HTTP em Python para rotear cada implementação por uma interface JSON
      Uso principalmente diffusers; é mais lento, mas o suporte a novas arquiteturas chega rápido
    • ComfyUI é o melhor para Stable Diffusion
    • Recomendo testar. Ultimamente ficou bem mais amigável graças ao recurso de templates
    • Se você estiver em plataforma AMD, o Lemonade suporta geração de imagens desde a versão 9.2
      Site / Notas de lançamento
  • A tipografia vertical (Vertical Typography) em chinês pareceu um pouco estranha
    Para ficar natural, deveria usar pontuação vertical específica, por exemplo ︒
  • Eu faço infográficos com IA generativa todos os dias, mas sinceramente 99% deles são ruins
    O LinkedIn está lotado desse tipo de imagem
    • Ainda assim, o LinkedIn já era ruim antes, então não ficou pior por causa disso
    • Infográficos e apresentações ainda são recursos exclusivos do NanoBananaPro
    • A qualidade de um infográfico no fim depende da capacidade de quem o produz
      Quase ninguém sabe fazer ou explicar um bom infográfico
    • Como os diagramas ASCII inúteis no GitHub, esse tipo de visualização não passa de ruído cognitivo
      Para outro exemplo, veja a thread de Gas Town
  • Infelizmente, desta vez parece que não haverá liberação de open weights
    • Ainda assim, eles lançaram um modelo de imagem com open weights há cerca de um mês, então desta vez também pode acontecer
      A última divulgação foi por volta de dezembro de 2025
  • Gostei do exemplo de painel de quadrinhos deles e fui testar no Qwen Chat
    Com o mesmo prompt do blog, funciona bem, mas se eu mudar um pouquinho a entrada, a quantidade de painéis sai errada ou os diálogos em inglês viram chinês
    Ou seja, ainda é um recurso com pouca consistência
  • A “imagem de aplicação equestre” foi interessante
    • Mas usar como demo “uma cena em que um cavalo ataca um homem” foi meio inesperado
      Enfim, cada um com suas escolhas