Confronto de Edição de Imagens com IA Generativa

(genai-showdown.specr.net)

1 pontos por GN⁺ 2025-10-30 | 1 comentários | Compartilhar no WhatsApp

Conteúdo em formato de comparação dos resultados de várias ferramentas de edição de imagens com IA generativa
Estrutura que compara visualmente os resultados de edição gerados por cada ferramenta para a mesma entrada
A página exibe a mensagem “Loading editing comparisons...”, indicando que a comparação de edições está sendo carregada
Além do título, não são fornecidos nomes específicos de ferramentas, critérios de comparação ou descrição dos resultados
De modo geral, parece ser uma interface para comparar o desempenho de edição de imagens por IA, mas o texto original não traz detalhes

Visão geral da página

O título é “Generative AI Image Editing Showdown”, sugerindo uma comparação entre vários modelos de edição de imagens com IA
No corpo, existe apenas a frase “Loading editing comparisons...”, e não há resultados da comparação nem explicações
O texto original não inclui textos adicionais, dados, imagens, lista de ferramentas ou critérios de avaliação

Limitações das informações fornecidas

O texto original não traz descrição concreta dos resultados de edição nem do conteúdo da comparação
Portanto, não ficam especificados o objetivo da comparação, os modelos de IA usados nem a forma de avaliação
Em geral, o conteúdo parece estar em estado de carregamento, sem fornecer informações substanciais

1 comentários

GN⁺ 2025-10-30

Opiniões do Hacker News

Todo mundo está subestimando o Gemini 2.5 Flash Image / Nano Banana
Ele é muito mais poderoso que outros modelos, com o mesmo preço por imagem, e graças ao encoder de texto consegue lidar com prompts muito mais complexos e sutis
Publiquei exemplos com o pacote Python gemimg que criei, e também estou preparando um post de blog com casos mais variados
O AI Studio do Google ainda oferece geração gratuita com até controle de proporção
Mesmo assim, foi surpreendente o Seedream 4.0 ter vencido neste teste
- Na verdade, o Nano Banana teve bastante viralização quando foi lançado
  Tirando recursos embutidos do ChatGPT ou a moda do estilo Ghibli, acho que ele é um dos modelos de edição de imagem mais conhecidos
- O Seedream foi melhor em fidelidade ao prompt, mas tende a causar pequenas mudanças de gradiente de cor
  Para o meu uso isso não é um grande problema, mas para quem precisa de consistência de cores, o Nano Banana pode ser melhor
- Quando uso o Nano Banana, em cerca de metade das vezes o AI Studio diz que falhou sem motivo
  Nem eram pedidos na fronteira de copyright, mas esse tipo de erro acontece com frequência
  Ainda assim, quando funciona, o resultado é muito impressionante
- Usei o Nano Banana para arrumar uma foto da minha cozinha bagunçada e no começo falhou completamente
  Na segunda tentativa, primeiro extraí uma lista dos itens bagunçados com análise de imagem, e depois removi isso via prompt, o que deu um resultado bem melhor
  No fim, senti de novo a importância de engenharia de prompt
- O Gemini é excelente quando funciona bem, mas às vezes gera resultados totalmente sem sentido e não acerta com prompt nenhum
  O Flux é surpreendentemente bom, mas a maioria das pessoas, eu incluso, acaba usando por padrão modelos familiares como ChatGPT ou Gemini
Comparações assim são muito mais práticas do que gráficos de benchmark
Eu uso bastante o Nano Banana, mas ele é fraco para edição de exteriores de prédios ou paisagismo
Coisas como calçadas, valas de drenagem e correspondência de cores são quase impossíveis
- Estou fazendo experimentos com o Qwen Image Edit para transformar fotos diurnas em noturnas, e a maioria dos modelos erra no alinhamento das bordas
  O Nano Banana também trata mal as bordas, então a foto fica desalinhada
Para quem definiu a referência em 2022, os demos de hoje são impressionantes a um nível incomparável com a era do SD1·2·3
Parece que agora entramos na era em que os modelos realmente entendem prompts e imagens
É um momento em que a criatividade está se expandindo de forma explosiva à medida que a engenharia continua avançando
Mudar o prompt ou o número de tentativas e depois mostrar só o resultado favorito enfraquece a objetividade do teste
É preciso haver condições padronizadas, como 5 gerações para todos os modelos com o mesmo prompt e a mesma seed
Por exemplo, o Gemini 2.5 Flash recebeu liberdade excessiva no teste de “Girl with Pearl Earring”,
enquanto o OpenAI gpt-image-1, mesmo tendo produzido um resultado muito melhor em menos tentativas, acabou tratado como fracasso
- Só para constar, o exemplo de gpt-image-1 era para o teste “You Only Move Twice”
- Seria até melhor fazer uma competição de “pior imagem”, porque aí ficaria mais claro qual modelo é menos frustrante
No texto que publiquei no blog da Replicate, comparei vários modelos diretamente
Entre eles, o Qwen Image Edit foi o mais barato e rápido, além de lidar bem com a maioria das tarefas de edição
Se eu fosse criar um app de edição de imagem, provavelmente escolheria esse modelo
A comparação em si foi interessante, mas a imagem final da girafa só ficou com o corpo dobrado, não mais curto
Mesmo assim, acabei escolhendo com frequência os resultados do Gemini, e gostaria que houvesse uma avaliação em escala de 10 pontos em vez de só pass/fail
- A expressão “girafa dobrada de forma estranha” foi engraçada demais
  Se existisse uma exposição assim de verdade, eu certamente iria
Ultimamente quase não faço geração de imagem com IA
Há cerca de um ano e meio, rodar modelos localmente estava em alta, mas agora quase tudo migrou para o modelo baseado em nuvem
Mesmo assim, na edição de fotos reais ainda dá para sentir uma textura artificial em algum ponto
Por exemplo, cabelo humano fica brilhante demais, ou árvores parecem de plástico
- O tamanho dos modelos de imagem e a demanda computacional cresceram tanto que ficou difícil fazer self-hosting como indivíduo
  Dá para rodar o Flux Kontext localmente, mas é preciso gerar devagar com um modelo quantizado, então é ineficiente
  Além disso, como dá para criar imagens grátis no ChatGPT, há cada vez menos motivo para insistir no local
  No teste de cabelo, só o Gemini 2.5 Flash acertou de verdade as cores e a textura,
  e eu não gosto do Seedream 4 porque ele muda a correção de cor da imagem inteira
Acho que seria bom incluir o Reve no teste também
- Com o Nano Banana não consegui mudar direito a direção do olhar do personagem, mas o Reve entregou um resultado perfeito na primeira tentativa
  Removeu o objeto que o personagem segurava, virou o olhar para a câmera e ainda ajustou a pose de forma natural
  Além disso, os 4 resultados tinham qualidade alta o bastante para serem todos utilizáveis
  Depois li o post de apresentação do modelo da Reve e decidi me cadastrar na hora
- Obrigado pela recomendação, vou tentar adicionar à lista de testes depois
- Valeu pela dica
A tentativa foi boa, mas prompts incorretos como “a torre da pintura está inclinada para a direita” fazem o modelo inclinar ainda mais
- Essa frase não era o prompt de entrada real, e sim uma frase inicial
  Como os prompts são ajustados por modelo, o número de tentativas acabou sendo diferente
No geral, foi um teste divertido
Há críticas de que os prompts não eram perfeitos, mas isso o torna mais realista, porque estão no nível do que um usuário comum provavelmente digitariam
- Eu trabalho com prompts desde a era do SD 1.5, então conheço bem as variações de prompt necessárias para cada modelo
  Como explicado no FAQ, tento várias versões para que o modelo não fique preso a certas palavras
  Por exemplo, frases no imperativo como “Turn on the lights” não são apenas instruções simples,
  mas prompts para testar a capacidade de compreensão de um LLM multimodal
  Esse tipo de frase jamais funcionaria em modelos tradicionais como o SDXL

Confronto de Edição de Imagens com IA Generativa

Visão geral da página

Limitações das informações fornecidas

Leituras relacionadas

1 comentários

Opiniões do Hacker News