Resumo da análise comparativa de desempenho de modelos de edição de imagens baseados em texto
- Pontos principais:
- Foi avaliada a capacidade de 7 modelos recentes de edição de imagens baseada em texto em 12 tarefas de edição.
- Seedream 4 apresentou o melhor desempenho, com 9 acertos em 12, seguido por Gemini 2.5 Flash, com 7 acertos.
- A avaliação foi conduzida sob regras rigorosas de edição com prompt único (one-shot) e sem mascaramento manual (non-masked).
- Os modelos mostraram baixa taxa de sucesso em instruções complexas, como troca de posição espacial e remoção seletiva de elementos específicos.
Ⅰ. Introdução
- Objetivo da avaliação: comparar e analisar o desempenho de diversos modelos de ponta (SOTA) de edição de imagens, com foco em modificações de imagem guiadas por instruções de texto (text-instructed).
- Modelos avaliados (7): Seedream 4, Gemini 2.5 Flash, Qwen-Image-Edit, FLUX.1 Kontext [dev], OpenAI gpt-image-1, OmniGen2, (1 modelo adicional foi excluído da lista).
- Tarefas de avaliação: foram apresentados ao todo 12 prompts de edição e desafios de diferentes níveis de dificuldade e tipos.
- Regras da competição:
- Princípio de tentativa única (Single-attempt): não é permitido editar repetidamente a mesma imagem usando prompts de correção em sequência; o objetivo deve ser alcançado em apenas uma tentativa.
- Edição puramente baseada em texto (Purely text-based): a edição de imagem deve ser feita exclusivamente por instruções de texto, portanto recursos como img2img ou mascaramento manual (Manual Masking) para inpainting não são permitidos.
Ⅱ. Desenvolvimento: análise de desempenho por modelo e principais tarefas
1. Comparação geral da taxa de sucesso dos modelos
- Melhor desempenho: Seedream 4 obteve o melhor resultado, com 9 sucessos em 12 tarefas.
- Segundo melhor desempenho: Gemini 2.5 Flash ficou em seguida, com 7 sucessos.
- Faixa intermediária: Qwen-Image-Edit registrou 6 sucessos, e FLUX.1 Kontext [dev], 5.
- Faixa inferior: OpenAI gpt-image-1 teve 4 sucessos, e OmniGen2 ficou em apenas 1.
2. Análise do desempenho dos modelos por tipo específico de edição
2.1. Tarefas de percepção espacial e ajuste de posição: baixa taxa de sucesso
- 'SHRDLU' (troca de posição dos blocos): os 6 modelos falharam (0/6). A maioria apenas trocou as cores dos blocos em vez de suas posições; Gemini 2.5 Flash e Seedream 4 também trocaram apenas as cores.
- 'Endireitar a Torre de Pisa inclinada': 2 sucessos em 6 (2/6). A tarefa exige percepção espacial básica, e os modelos tiveram dificuldade para corrigir verticalmente apenas um objeto específico preservando o restante do ambiente.
2.2. Tarefas de alteração e preservação de elementos detalhados: resultados mistos
- 'Mudar Jaws para Paws e fazer outras edições múltiplas': 5 sucessos em 6 (5/6). É necessário realizar várias mudanças ao mesmo tempo; OmniGen2 conseguiu a edição, mas falhou em preservar o estilo estético original.
- 'Adicionar cabelo a um homem barbudo': 4 sucessos em 6 (4/6). O resultado do Gemini 2.5 Flash foi razoável, mas o cabelo ficou pontiagudo demais, enquanto o OpenAI gpt-image-1 alterou a imagem inteira.
- 'Alterar carta de hwatu': 3 sucessos em 6 (3/6). No teste de edição seletiva, que exigia mudar apenas uma carta específica (King of Spades) e manter outra (Ace of Spades) intacta, o Qwen-Image-Edit acabou modificando também o Ace of Spades, o que não era desejado.
2.3. Tarefas de preservação de detalhes e manipulação complexa de objetos: o maior obstáculo
- 'Encurtar o pescoço da girafa': 1 sucesso em 6 (1/6). A maioria dos modelos falhou em encurtar o pescoço da girafa ou, no caso do Qwen-Image-Edit, interpretou o prompt de forma anormal e removeu o pescoço por completo.
- 'Remover o doce marrom do M&M': 1 sucesso em 6 (1/6). Houve dificuldade em remover seletivamente apenas o doce de uma cor específica (ou alterar sua cor); o Gemini 2.5 Flash gerou uma nova disposição dos doces.
- 'Substituir o canguru de uma placa antiga pela silhueta de um verme da areia': 1 sucesso em 6 (1/6). Faltou capacidade para inserir um novo elemento preservando a textura envelhecida da placa existente, como arranhões e ferrugem.
Ⅲ. Conclusão
- Características dos melhores modelos: Seedream 4 e Gemini 2.5 Flash mostraram desempenho geralmente superior, mas ainda têm limitações para compreender e refletir perfeitamente instruções textuais complexas e sutis.
- Principais tipos de falha: os modelos registraram de forma consistente baixa taxa de sucesso em tarefas que exigem compreensão precisa de relações espaciais e edição seletiva e preservação de elementos minuciosos específicos dentro da imagem.
- Direções para evolução futura:
- GPT-image-1 frequentemente mostrou tendência a alterar toda a imagem sem intenção, indicando a necessidade de melhorar a precisão na localização da área de edição.
- Em alguns modelos, como 'FLUX.1 Kontext [dev]' e 'Kontext Max', apareceu um resultado incomum em que o modelo maior teve desempenho inferior ao modelo menor em versão de desenvolvimento, sugerindo a necessidade de analisar o impacto do tipo de dado de treino (foto vs. ilustração) no desempenho.
- Para tarefas difíceis de resolver com um único prompt (por exemplo, alteração de design de cartas), pode ser necessário evoluir a metodologia de teste para um formato que receba múltiplas imagens como entrada para referência.
Ainda não há comentários.