3 pontos por baeba 2025-10-29 | Ainda não há comentários. | Compartilhar no WhatsApp

Resumo da análise comparativa de desempenho de modelos de edição de imagens baseados em texto

  • Pontos principais:
    • Foi avaliada a capacidade de 7 modelos recentes de edição de imagens baseada em texto em 12 tarefas de edição.
    • Seedream 4 apresentou o melhor desempenho, com 9 acertos em 12, seguido por Gemini 2.5 Flash, com 7 acertos.
    • A avaliação foi conduzida sob regras rigorosas de edição com prompt único (one-shot) e sem mascaramento manual (non-masked).
    • Os modelos mostraram baixa taxa de sucesso em instruções complexas, como troca de posição espacial e remoção seletiva de elementos específicos.

Ⅰ. Introdução

  • Objetivo da avaliação: comparar e analisar o desempenho de diversos modelos de ponta (SOTA) de edição de imagens, com foco em modificações de imagem guiadas por instruções de texto (text-instructed).
  • Modelos avaliados (7): Seedream 4, Gemini 2.5 Flash, Qwen-Image-Edit, FLUX.1 Kontext [dev], OpenAI gpt-image-1, OmniGen2, (1 modelo adicional foi excluído da lista).
  • Tarefas de avaliação: foram apresentados ao todo 12 prompts de edição e desafios de diferentes níveis de dificuldade e tipos.
  • Regras da competição:
    • Princípio de tentativa única (Single-attempt): não é permitido editar repetidamente a mesma imagem usando prompts de correção em sequência; o objetivo deve ser alcançado em apenas uma tentativa.
    • Edição puramente baseada em texto (Purely text-based): a edição de imagem deve ser feita exclusivamente por instruções de texto, portanto recursos como img2img ou mascaramento manual (Manual Masking) para inpainting não são permitidos.

Ⅱ. Desenvolvimento: análise de desempenho por modelo e principais tarefas

1. Comparação geral da taxa de sucesso dos modelos

  • Melhor desempenho: Seedream 4 obteve o melhor resultado, com 9 sucessos em 12 tarefas.
  • Segundo melhor desempenho: Gemini 2.5 Flash ficou em seguida, com 7 sucessos.
  • Faixa intermediária: Qwen-Image-Edit registrou 6 sucessos, e FLUX.1 Kontext [dev], 5.
  • Faixa inferior: OpenAI gpt-image-1 teve 4 sucessos, e OmniGen2 ficou em apenas 1.

2. Análise do desempenho dos modelos por tipo específico de edição

2.1. Tarefas de percepção espacial e ajuste de posição: baixa taxa de sucesso
  • 'SHRDLU' (troca de posição dos blocos): os 6 modelos falharam (0/6). A maioria apenas trocou as cores dos blocos em vez de suas posições; Gemini 2.5 Flash e Seedream 4 também trocaram apenas as cores.
  • 'Endireitar a Torre de Pisa inclinada': 2 sucessos em 6 (2/6). A tarefa exige percepção espacial básica, e os modelos tiveram dificuldade para corrigir verticalmente apenas um objeto específico preservando o restante do ambiente.
2.2. Tarefas de alteração e preservação de elementos detalhados: resultados mistos
  • 'Mudar Jaws para Paws e fazer outras edições múltiplas': 5 sucessos em 6 (5/6). É necessário realizar várias mudanças ao mesmo tempo; OmniGen2 conseguiu a edição, mas falhou em preservar o estilo estético original.
  • 'Adicionar cabelo a um homem barbudo': 4 sucessos em 6 (4/6). O resultado do Gemini 2.5 Flash foi razoável, mas o cabelo ficou pontiagudo demais, enquanto o OpenAI gpt-image-1 alterou a imagem inteira.
  • 'Alterar carta de hwatu': 3 sucessos em 6 (3/6). No teste de edição seletiva, que exigia mudar apenas uma carta específica (King of Spades) e manter outra (Ace of Spades) intacta, o Qwen-Image-Edit acabou modificando também o Ace of Spades, o que não era desejado.
2.3. Tarefas de preservação de detalhes e manipulação complexa de objetos: o maior obstáculo
  • 'Encurtar o pescoço da girafa': 1 sucesso em 6 (1/6). A maioria dos modelos falhou em encurtar o pescoço da girafa ou, no caso do Qwen-Image-Edit, interpretou o prompt de forma anormal e removeu o pescoço por completo.
  • 'Remover o doce marrom do M&M': 1 sucesso em 6 (1/6). Houve dificuldade em remover seletivamente apenas o doce de uma cor específica (ou alterar sua cor); o Gemini 2.5 Flash gerou uma nova disposição dos doces.
  • 'Substituir o canguru de uma placa antiga pela silhueta de um verme da areia': 1 sucesso em 6 (1/6). Faltou capacidade para inserir um novo elemento preservando a textura envelhecida da placa existente, como arranhões e ferrugem.

Ⅲ. Conclusão

  • Características dos melhores modelos: Seedream 4 e Gemini 2.5 Flash mostraram desempenho geralmente superior, mas ainda têm limitações para compreender e refletir perfeitamente instruções textuais complexas e sutis.
  • Principais tipos de falha: os modelos registraram de forma consistente baixa taxa de sucesso em tarefas que exigem compreensão precisa de relações espaciais e edição seletiva e preservação de elementos minuciosos específicos dentro da imagem.
  • Direções para evolução futura:
    • GPT-image-1 frequentemente mostrou tendência a alterar toda a imagem sem intenção, indicando a necessidade de melhorar a precisão na localização da área de edição.
    • Em alguns modelos, como 'FLUX.1 Kontext [dev]' e 'Kontext Max', apareceu um resultado incomum em que o modelo maior teve desempenho inferior ao modelo menor em versão de desenvolvimento, sugerindo a necessidade de analisar o impacto do tipo de dado de treino (foto vs. ilustração) no desempenho.
    • Para tarefas difíceis de resolver com um único prompt (por exemplo, alteração de design de cartas), pode ser necessário evoluir a metodologia de teste para um formato que receba múltiplas imagens como entrada para referência.

Ainda não há comentários.

Ainda não há comentários.