1 pontos por GN⁺ 2025-08-05 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Qwen-Image é um modelo base de geração de imagens MMDiT de 20B parâmetros com forte capacidade em renderização nativa de texto e edição de imagem precisa
  • Alcançou alta precisão e acabamento visual em expressões complexas de caracteres de vários idiomas, incluindo alfabetos e caracteres de ideogramas
  • Em diversos benchmarks públicos (GenEval, DPG, OneIG-Bench etc.), atinge desempenho de ponta de sua categoria, com excelente capacidade de geração de texto
  • Em demos reais, reproduz com precisão layouts complexos e estilos variados em cenários multilíngues, pôsteres, PPT e ilustrações
  • Suporta recursos de edição como transformação de estilo, adição/remoção de objetos, descrição detalhada e alteração de pose, com foco em ampliar o ecossistema de código aberto

Introdução e principais recursos

  • Qwen-Image é um modelo base de geração de imagem MMDiT baseado em 20B parâmetros especializado em renderização de texto complexa e edição de imagem precisa
  • É possível experimentar o modelo mais recente no Qwen Chat

Principais recursos

  • Excelente renderização de texto: suporte para layouts multi-linha, compreensão semântica em nível de parágrafo e expressão minuciosa
    • Suporte de alta fidelidade tanto para sistemas baseados em alfabeto quanto logográficos, incluindo inglês e caracteres chineses
  • Edição de imagem consistente: preserva precisão semântica e realismo visual por meio de treinamento multitarefa aprimorado
  • Desempenho robusto em benchmarks: alcança o melhor desempenho de sua categoria em tarefas de geração e edição em diversos benchmarks públicos
  • Na área de geração/edição de texto, registra ótimos resultados em LongText-Bench, ChineseWord, TextCraft
  • Amplo potencial de uso em criação, design e storytelling

Desempenho e benchmarks

  • O Qwen-Image alcança desempenho SOTA (estado da arte) em GenEval, DPG, OneIG-Bench (geração de imagem geral), GEdit, ImgEdit, GSO (edição) e outros benchmarks
  • Especialmente em geração de texto em chinês, supera amplamente os modelos líderes anteriores
  • Combinando capacidades gerais amplas com renderização precisa de texto, posiciona-se como um modelo de destaque em geração de imagens

Exemplos de demonstração

Expressão de texto em chinês

  • Com base em prompts de exemplo, representa com precisão “云存储”, “云计算”, “云模型” e caracteres chineses incomuns como “千问” no estilo de animação da Miyazaki, de forma ao mesmo tempo realista
  • Também implementa naturalmente poses, expressões faciais e profundidade de cena

Expressão paralela de ideogramas complexos

  • Representa com delicadeza detalhes sofisticados, como pares de versos, caligrafia e motivos de estilo Qinghua
  • Fonte, layout e ilustração (ex.: 岳阳楼) são gerados de forma perfeitamente fiel e semelhante à realidade

Texto em inglês e múltiplas linhas

  • Reflete detalhadamente texto em múltiplas posições, como estantes de livraria, placas informativas e pôsteres
  • Implementa fontes e layout realistas, de “New Arrivals This Week” até frases curtas de capas de livros

Infográfico complexo em inglês

  • Posiciona com precisão módulos separados por ícone + título + parágrafo de descrição
  • Produz infográficos complexos com tema “Habits for Emotional Wellbeing” em acabamento artístico natural e composição equilibrada

Texto pequeno e longo

  • Implementa detalhes de textos manuscritos longos até em áreas pequenas de menos de 1/10 da imagem
  • Reproduz com precisão grande volume de frases, incluindo escrita manual, layout e quebras de linha

Mistura multilíngue

  • Implementa com escrita manual, no mesmo visual, inglês e chinês em uma única imagem
  • Gera texto naturalmente conforme a alternância de idioma no prompt

Geração de pôsteres

  • Combina livremente elementos de texto e visual, como pôsteres de filmes, subtítulos, elenco, diretor e informações de lançamento, em estilos diversos como Sci-Fi e design gráfico

Exemplo de PPT em português

  • Gera de forma coesa estilos atuais de PPT de IA/empresarial, incluindo logotipo da Alibaba, título principal, subtítulo, posicionamento de imagem de obra de arte, fontes caligráficas e descrições detalhadas

Geração e edição de imagem geral

  • Suporte a diversos estilos artísticos como fotorrealista, impressionista, anime, minimalista, oferecendo ampla utilidade criativa
  • Suporta comandos de edição práticos, como transformação de estilo, adição/remoção de objetos, aprimoramento de detalhes, edição de texto e ajuste de poses humanas

Conclusão

  • O Qwen-Image tem como objetivo expandir os horizontes da geração de imagens, reduzir a barreira técnica para produção de conteúdo visual e impulsionar usos criativos
  • Foca em colaboração comunitária, abertura e construção de um ecossistema de IA generativa sustentável
  • Prevê aprimorar recursos e expandir o ecossistema aberto com base no uso real e feedback de usuários

Ainda não há comentários.

Ainda não há comentários.