- Qwen-Image é um modelo base de geração de imagens MMDiT de 20B parâmetros com forte capacidade em renderização nativa de texto e edição de imagem precisa
- Alcançou alta precisão e acabamento visual em expressões complexas de caracteres de vários idiomas, incluindo alfabetos e caracteres de ideogramas
- Em diversos benchmarks públicos (GenEval, DPG, OneIG-Bench etc.), atinge desempenho de ponta de sua categoria, com excelente capacidade de geração de texto
- Em demos reais, reproduz com precisão layouts complexos e estilos variados em cenários multilíngues, pôsteres, PPT e ilustrações
- Suporta recursos de edição como transformação de estilo, adição/remoção de objetos, descrição detalhada e alteração de pose, com foco em ampliar o ecossistema de código aberto
Introdução e principais recursos
- Qwen-Image é um modelo base de geração de imagem MMDiT baseado em 20B parâmetros especializado em renderização de texto complexa e edição de imagem precisa
- É possível experimentar o modelo mais recente no Qwen Chat
Principais recursos
- Excelente renderização de texto: suporte para layouts multi-linha, compreensão semântica em nível de parágrafo e expressão minuciosa
- Suporte de alta fidelidade tanto para sistemas baseados em alfabeto quanto logográficos, incluindo inglês e caracteres chineses
- Edição de imagem consistente: preserva precisão semântica e realismo visual por meio de treinamento multitarefa aprimorado
- Desempenho robusto em benchmarks: alcança o melhor desempenho de sua categoria em tarefas de geração e edição em diversos benchmarks públicos
- Na área de geração/edição de texto, registra ótimos resultados em LongText-Bench, ChineseWord, TextCraft
- Amplo potencial de uso em criação, design e storytelling
Desempenho e benchmarks
- O Qwen-Image alcança desempenho SOTA (estado da arte) em GenEval, DPG, OneIG-Bench (geração de imagem geral), GEdit, ImgEdit, GSO (edição) e outros benchmarks
- Especialmente em geração de texto em chinês, supera amplamente os modelos líderes anteriores
- Combinando capacidades gerais amplas com renderização precisa de texto, posiciona-se como um modelo de destaque em geração de imagens
Exemplos de demonstração
Expressão de texto em chinês
- Com base em prompts de exemplo, representa com precisão “云存储”, “云计算”, “云模型” e caracteres chineses incomuns como “千问” no estilo de animação da Miyazaki, de forma ao mesmo tempo realista
- Também implementa naturalmente poses, expressões faciais e profundidade de cena
Expressão paralela de ideogramas complexos
- Representa com delicadeza detalhes sofisticados, como pares de versos, caligrafia e motivos de estilo Qinghua
- Fonte, layout e ilustração (ex.: 岳阳楼) são gerados de forma perfeitamente fiel e semelhante à realidade
Texto em inglês e múltiplas linhas
- Reflete detalhadamente texto em múltiplas posições, como estantes de livraria, placas informativas e pôsteres
- Implementa fontes e layout realistas, de “New Arrivals This Week” até frases curtas de capas de livros
Infográfico complexo em inglês
- Posiciona com precisão módulos separados por ícone + título + parágrafo de descrição
- Produz infográficos complexos com tema “Habits for Emotional Wellbeing” em acabamento artístico natural e composição equilibrada
Texto pequeno e longo
- Implementa detalhes de textos manuscritos longos até em áreas pequenas de menos de 1/10 da imagem
- Reproduz com precisão grande volume de frases, incluindo escrita manual, layout e quebras de linha
Mistura multilíngue
- Implementa com escrita manual, no mesmo visual, inglês e chinês em uma única imagem
- Gera texto naturalmente conforme a alternância de idioma no prompt
Geração de pôsteres
- Combina livremente elementos de texto e visual, como pôsteres de filmes, subtítulos, elenco, diretor e informações de lançamento, em estilos diversos como Sci-Fi e design gráfico
Exemplo de PPT em português
- Gera de forma coesa estilos atuais de PPT de IA/empresarial, incluindo logotipo da Alibaba, título principal, subtítulo, posicionamento de imagem de obra de arte, fontes caligráficas e descrições detalhadas
Geração e edição de imagem geral
- Suporte a diversos estilos artísticos como fotorrealista, impressionista, anime, minimalista, oferecendo ampla utilidade criativa
- Suporta comandos de edição práticos, como transformação de estilo, adição/remoção de objetos, aprimoramento de detalhes, edição de texto e ajuste de poses humanas
Conclusão
- O Qwen-Image tem como objetivo expandir os horizontes da geração de imagens, reduzir a barreira técnica para produção de conteúdo visual e impulsionar usos criativos
- Foca em colaboração comunitária, abertura e construção de um ecossistema de IA generativa sustentável
- Prevê aprimorar recursos e expandir o ecossistema aberto com base no uso real e feedback de usuários
Ainda não há comentários.