Análise comparativa de desempenho de modelos de edição de imagens por IA com geração de texto para imagem

(genai-showdown.specr.net)

3 pontos por baeba 2025-10-29 | Ainda não há comentários. | Compartilhar no WhatsApp

Resumo da análise comparativa de desempenho de modelos de edição de imagens baseados em texto

Pontos principais:
- Foi avaliada a capacidade de 7 modelos recentes de edição de imagens baseada em texto em 12 tarefas de edição.
- Seedream 4 apresentou o melhor desempenho, com 9 acertos em 12, seguido por Gemini 2.5 Flash, com 7 acertos.
- A avaliação foi conduzida sob regras rigorosas de edição com prompt único (one-shot) e sem mascaramento manual (non-masked).
- Os modelos mostraram baixa taxa de sucesso em instruções complexas, como troca de posição espacial e remoção seletiva de elementos específicos.

Objetivo da avaliação: comparar e analisar o desempenho de diversos modelos de ponta (SOTA) de edição de imagens, com foco em modificações de imagem guiadas por instruções de texto (text-instructed).
Modelos avaliados (7): Seedream 4, Gemini 2.5 Flash, Qwen-Image-Edit, FLUX.1 Kontext [dev], OpenAI gpt-image-1, OmniGen2, (1 modelo adicional foi excluído da lista).
Tarefas de avaliação: foram apresentados ao todo 12 prompts de edição e desafios de diferentes níveis de dificuldade e tipos.
Regras da competição:
- Princípio de tentativa única (Single-attempt): não é permitido editar repetidamente a mesma imagem usando prompts de correção em sequência; o objetivo deve ser alcançado em apenas uma tentativa.
- Edição puramente baseada em texto (Purely text-based): a edição de imagem deve ser feita exclusivamente por instruções de texto, portanto recursos como img2img ou mascaramento manual (Manual Masking) para inpainting não são permitidos.

Melhor desempenho: Seedream 4 obteve o melhor resultado, com 9 sucessos em 12 tarefas.
Segundo melhor desempenho: Gemini 2.5 Flash ficou em seguida, com 7 sucessos.
Faixa intermediária: Qwen-Image-Edit registrou 6 sucessos, e FLUX.1 Kontext [dev], 5.
Faixa inferior: OpenAI gpt-image-1 teve 4 sucessos, e OmniGen2 ficou em apenas 1.

'SHRDLU' (troca de posição dos blocos): os 6 modelos falharam (0/6). A maioria apenas trocou as cores dos blocos em vez de suas posições; Gemini 2.5 Flash e Seedream 4 também trocaram apenas as cores.
'Endireitar a Torre de Pisa inclinada': 2 sucessos em 6 (2/6). A tarefa exige percepção espacial básica, e os modelos tiveram dificuldade para corrigir verticalmente apenas um objeto específico preservando o restante do ambiente.

'Mudar Jaws para Paws e fazer outras edições múltiplas': 5 sucessos em 6 (5/6). É necessário realizar várias mudanças ao mesmo tempo; OmniGen2 conseguiu a edição, mas falhou em preservar o estilo estético original.
'Adicionar cabelo a um homem barbudo': 4 sucessos em 6 (4/6). O resultado do Gemini 2.5 Flash foi razoável, mas o cabelo ficou pontiagudo demais, enquanto o OpenAI gpt-image-1 alterou a imagem inteira.
'Alterar carta de hwatu': 3 sucessos em 6 (3/6). No teste de edição seletiva, que exigia mudar apenas uma carta específica (King of Spades) e manter outra (Ace of Spades) intacta, o Qwen-Image-Edit acabou modificando também o Ace of Spades, o que não era desejado.

'Encurtar o pescoço da girafa': 1 sucesso em 6 (1/6). A maioria dos modelos falhou em encurtar o pescoço da girafa ou, no caso do Qwen-Image-Edit, interpretou o prompt de forma anormal e removeu o pescoço por completo.
'Remover o doce marrom do M&M': 1 sucesso em 6 (1/6). Houve dificuldade em remover seletivamente apenas o doce de uma cor específica (ou alterar sua cor); o Gemini 2.5 Flash gerou uma nova disposição dos doces.
'Substituir o canguru de uma placa antiga pela silhueta de um verme da areia': 1 sucesso em 6 (1/6). Faltou capacidade para inserir um novo elemento preservando a textura envelhecida da placa existente, como arranhões e ferrugem.

Características dos melhores modelos: Seedream 4 e Gemini 2.5 Flash mostraram desempenho geralmente superior, mas ainda têm limitações para compreender e refletir perfeitamente instruções textuais complexas e sutis.
Principais tipos de falha: os modelos registraram de forma consistente baixa taxa de sucesso em tarefas que exigem compreensão precisa de relações espaciais e edição seletiva e preservação de elementos minuciosos específicos dentro da imagem.
Direções para evolução futura:
- GPT-image-1 frequentemente mostrou tendência a alterar toda a imagem sem intenção, indicando a necessidade de melhorar a precisão na localização da área de edição.
- Em alguns modelos, como 'FLUX.1 Kontext [dev]' e 'Kontext Max', apareceu um resultado incomum em que o modelo maior teve desempenho inferior ao modelo menor em versão de desenvolvimento, sugerindo a necessidade de analisar o impacto do tipo de dado de treino (foto vs. ilustração) no desempenho.
- Para tarefas difíceis de resolver com um único prompt (por exemplo, alteração de design de cartas), pode ser necessário evoluir a metodologia de teste para um formato que receba múltiplas imagens como entrada para referência.