Qwen-Image-Edit - lançamento de modelo dedicado à edição de imagens

(huggingface.co)

18 pontos por GN⁺ 2025-08-21 | Ainda não há comentários. | Compartilhar no WhatsApp

Qwen-Image-Edit é um modelo estendido dedicado à edição de imagens, baseado no modelo Qwen-Image
Possui uma arquitetura que envia a imagem de entrada simultaneamente para Qwen2.5-VL e VAE Encoder, permitindo tanto edição semântica quanto de aparência
O recurso de edição de texto é poderoso, permitindo modificar diretamente textos em chinês e inglês enquanto preserva fonte, tamanho e estilo
Alcançou desempenho de ponta (SOTA) em vários benchmarks, consolidando-se como um forte modelo base para edição de imagens
Foi lançado como open source sob a licença Apache 2.0, permitindo uso livre por desenvolvedores e pesquisadores

Introdução

Qwen-Image-Edit é um modelo que expande a capacidade de renderização de texto do Qwen-Image para oferecer suporte à edição de imagens
Tem uma estrutura que envia a entrada de imagem ao mesmo tempo para o controle semântico (Qwen2.5-VL) e o controle de aparência (VAE Encoder)
Destaca-se por oferecer tanto edição precisa de texto quanto edição semântica e de aparência

Edição semântica & de aparência: oferece suporte a mudanças semânticas, como adicionar, remover e rotacionar objetos ou converter estilos, além de edição de aparência que altera apenas áreas específicas
Edição precisa de texto: permite modificar diretamente inglês e chinês, preservando a fonte e o estilo originais
Vantagem de desempenho: alcançou desempenho de ponta em vários benchmarks públicos

Pode ser usado pela biblioteca diffusers do Hugging Face
No código de exemplo, a tarefa realizada é mudar a cor de um coelho para roxo e trocar o fundo para uma lanterna flash
Permite execução eficiente com aceleração CUDA e suporte a torch.bfloat16

Edição semântica: possibilita criação de IP de personagem, rotação de objetos (90 graus, 180 graus) e transformação de estilo (ex.: estilo Ghibli)
Edição de aparência: realiza com precisão adição de placas, remoção de cabelo, mudança da cor de textos específicos, substituição de fundo e troca de roupas
Edição de texto: permite corrigir com precisão tanto textos grandes quanto pequenos em pôsteres em inglês e chinês
Cadeia de edições contínuas: demonstra um caso em que erros de caracteres em uma obra de caligrafia são corrigidos passo a passo até chegar a uma versão completa

Expansão de IP de marca: é apresentado um caso de produção de emoticons MBTI com base em um personagem capivara
Arte e criação: garante possibilidades de criação de avatares virtuais por meio de diversas transformações de estilo em retratos
Uso industrial: oferece suporte a edições detalhadas, como gerar naturalmente até efeitos de reflexo ao inserir placas

Foi lançado sob a licença Apache 2.0, permitindo uso, modificação e distribuição livres