18 pontos por GN⁺ 2025-08-21 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Qwen-Image-Edit é um modelo estendido dedicado à edição de imagens, baseado no modelo Qwen-Image
  • Possui uma arquitetura que envia a imagem de entrada simultaneamente para Qwen2.5-VL e VAE Encoder, permitindo tanto edição semântica quanto de aparência
  • O recurso de edição de texto é poderoso, permitindo modificar diretamente textos em chinês e inglês enquanto preserva fonte, tamanho e estilo
  • Alcançou desempenho de ponta (SOTA) em vários benchmarks, consolidando-se como um forte modelo base para edição de imagens
  • Foi lançado como open source sob a licença Apache 2.0, permitindo uso livre por desenvolvedores e pesquisadores

Introdução

  • Qwen-Image-Edit é um modelo que expande a capacidade de renderização de texto do Qwen-Image para oferecer suporte à edição de imagens
  • Tem uma estrutura que envia a entrada de imagem ao mesmo tempo para o controle semântico (Qwen2.5-VL) e o controle de aparência (VAE Encoder)
  • Destaca-se por oferecer tanto edição precisa de texto quanto edição semântica e de aparência

Principais recursos

  • Edição semântica & de aparência: oferece suporte a mudanças semânticas, como adicionar, remover e rotacionar objetos ou converter estilos, além de edição de aparência que altera apenas áreas específicas
  • Edição precisa de texto: permite modificar diretamente inglês e chinês, preservando a fonte e o estilo originais
  • Vantagem de desempenho: alcançou desempenho de ponta em vários benchmarks públicos

Início rápido

  • Pode ser usado pela biblioteca diffusers do Hugging Face
  • No código de exemplo, a tarefa realizada é mudar a cor de um coelho para roxo e trocar o fundo para uma lanterna flash
  • Permite execução eficiente com aceleração CUDA e suporte a torch.bfloat16

Casos de demonstração (Showcase)

  • Edição semântica: possibilita criação de IP de personagem, rotação de objetos (90 graus, 180 graus) e transformação de estilo (ex.: estilo Ghibli)
  • Edição de aparência: realiza com precisão adição de placas, remoção de cabelo, mudança da cor de textos específicos, substituição de fundo e troca de roupas
  • Edição de texto: permite corrigir com precisão tanto textos grandes quanto pequenos em pôsteres em inglês e chinês
  • Cadeia de edições contínuas: demonstra um caso em que erros de caracteres em uma obra de caligrafia são corrigidos passo a passo até chegar a uma versão completa

Cenários de aplicação

  • Expansão de IP de marca: é apresentado um caso de produção de emoticons MBTI com base em um personagem capivara
  • Arte e criação: garante possibilidades de criação de avatares virtuais por meio de diversas transformações de estilo em retratos
  • Uso industrial: oferece suporte a edições detalhadas, como gerar naturalmente até efeitos de reflexo ao inserir placas

Licença

  • Foi lançado sob a licença Apache 2.0, permitindo uso, modificação e distribuição livres

Ainda não há comentários.

Ainda não há comentários.