- Qwen-Image-Edit é um modelo estendido dedicado à edição de imagens, baseado no modelo Qwen-Image
- Possui uma arquitetura que envia a imagem de entrada simultaneamente para Qwen2.5-VL e VAE Encoder, permitindo tanto edição semântica quanto de aparência
- O recurso de edição de texto é poderoso, permitindo modificar diretamente textos em chinês e inglês enquanto preserva fonte, tamanho e estilo
- Alcançou desempenho de ponta (SOTA) em vários benchmarks, consolidando-se como um forte modelo base para edição de imagens
- Foi lançado como open source sob a licença Apache 2.0, permitindo uso livre por desenvolvedores e pesquisadores
Introdução
- Qwen-Image-Edit é um modelo que expande a capacidade de renderização de texto do Qwen-Image para oferecer suporte à edição de imagens
- Tem uma estrutura que envia a entrada de imagem ao mesmo tempo para o controle semântico (Qwen2.5-VL) e o controle de aparência (VAE Encoder)
- Destaca-se por oferecer tanto edição precisa de texto quanto edição semântica e de aparência
Principais recursos
- Edição semântica & de aparência: oferece suporte a mudanças semânticas, como adicionar, remover e rotacionar objetos ou converter estilos, além de edição de aparência que altera apenas áreas específicas
- Edição precisa de texto: permite modificar diretamente inglês e chinês, preservando a fonte e o estilo originais
- Vantagem de desempenho: alcançou desempenho de ponta em vários benchmarks públicos
Início rápido
- Pode ser usado pela biblioteca
diffusers do Hugging Face
- No código de exemplo, a tarefa realizada é mudar a cor de um coelho para roxo e trocar o fundo para uma lanterna flash
- Permite execução eficiente com aceleração CUDA e suporte a
torch.bfloat16
Casos de demonstração (Showcase)
- Edição semântica: possibilita criação de IP de personagem, rotação de objetos (90 graus, 180 graus) e transformação de estilo (ex.: estilo Ghibli)
- Edição de aparência: realiza com precisão adição de placas, remoção de cabelo, mudança da cor de textos específicos, substituição de fundo e troca de roupas
- Edição de texto: permite corrigir com precisão tanto textos grandes quanto pequenos em pôsteres em inglês e chinês
- Cadeia de edições contínuas: demonstra um caso em que erros de caracteres em uma obra de caligrafia são corrigidos passo a passo até chegar a uma versão completa
Cenários de aplicação
- Expansão de IP de marca: é apresentado um caso de produção de emoticons MBTI com base em um personagem capivara
- Arte e criação: garante possibilidades de criação de avatares virtuais por meio de diversas transformações de estilo em retratos
- Uso industrial: oferece suporte a edições detalhadas, como gerar naturalmente até efeitos de reflexo ao inserir placas
Licença
- Foi lançado sob a licença Apache 2.0, permitindo uso, modificação e distribuição livres
Ainda não há comentários.