- Conteúdo em formato de comparação dos resultados de várias ferramentas de edição de imagens com IA generativa
- Estrutura que compara visualmente os resultados de edição gerados por cada ferramenta para a mesma entrada
- A página exibe a mensagem “Loading editing comparisons...”, indicando que a comparação de edições está sendo carregada
- Além do título, não são fornecidos nomes específicos de ferramentas, critérios de comparação ou descrição dos resultados
- De modo geral, parece ser uma interface para comparar o desempenho de edição de imagens por IA, mas o texto original não traz detalhes
Visão geral da página
- O título é “Generative AI Image Editing Showdown”, sugerindo uma comparação entre vários modelos de edição de imagens com IA
- No corpo, existe apenas a frase “Loading editing comparisons...”, e não há resultados da comparação nem explicações
- O texto original não inclui textos adicionais, dados, imagens, lista de ferramentas ou critérios de avaliação
Limitações das informações fornecidas
- O texto original não traz descrição concreta dos resultados de edição nem do conteúdo da comparação
- Portanto, não ficam especificados o objetivo da comparação, os modelos de IA usados nem a forma de avaliação
- Em geral, o conteúdo parece estar em estado de carregamento, sem fornecer informações substanciais
1 comentários
Opiniões do Hacker News
Todo mundo está subestimando o Gemini 2.5 Flash Image / Nano Banana
Ele é muito mais poderoso que outros modelos, com o mesmo preço por imagem, e graças ao encoder de texto consegue lidar com prompts muito mais complexos e sutis
Publiquei exemplos com o pacote Python gemimg que criei, e também estou preparando um post de blog com casos mais variados
O AI Studio do Google ainda oferece geração gratuita com até controle de proporção
Mesmo assim, foi surpreendente o Seedream 4.0 ter vencido neste teste
Tirando recursos embutidos do ChatGPT ou a moda do estilo Ghibli, acho que ele é um dos modelos de edição de imagem mais conhecidos
Para o meu uso isso não é um grande problema, mas para quem precisa de consistência de cores, o Nano Banana pode ser melhor
Nem eram pedidos na fronteira de copyright, mas esse tipo de erro acontece com frequência
Ainda assim, quando funciona, o resultado é muito impressionante
Na segunda tentativa, primeiro extraí uma lista dos itens bagunçados com análise de imagem, e depois removi isso via prompt, o que deu um resultado bem melhor
No fim, senti de novo a importância de engenharia de prompt
O Flux é surpreendentemente bom, mas a maioria das pessoas, eu incluso, acaba usando por padrão modelos familiares como ChatGPT ou Gemini
Comparações assim são muito mais práticas do que gráficos de benchmark
Eu uso bastante o Nano Banana, mas ele é fraco para edição de exteriores de prédios ou paisagismo
Coisas como calçadas, valas de drenagem e correspondência de cores são quase impossíveis
O Nano Banana também trata mal as bordas, então a foto fica desalinhada
Para quem definiu a referência em 2022, os demos de hoje são impressionantes a um nível incomparável com a era do SD1·2·3
Parece que agora entramos na era em que os modelos realmente entendem prompts e imagens
É um momento em que a criatividade está se expandindo de forma explosiva à medida que a engenharia continua avançando
Mudar o prompt ou o número de tentativas e depois mostrar só o resultado favorito enfraquece a objetividade do teste
É preciso haver condições padronizadas, como 5 gerações para todos os modelos com o mesmo prompt e a mesma seed
Por exemplo, o Gemini 2.5 Flash recebeu liberdade excessiva no teste de “Girl with Pearl Earring”,
enquanto o OpenAI gpt-image-1, mesmo tendo produzido um resultado muito melhor em menos tentativas, acabou tratado como fracasso
No texto que publiquei no blog da Replicate, comparei vários modelos diretamente
Entre eles, o Qwen Image Edit foi o mais barato e rápido, além de lidar bem com a maioria das tarefas de edição
Se eu fosse criar um app de edição de imagem, provavelmente escolheria esse modelo
A comparação em si foi interessante, mas a imagem final da girafa só ficou com o corpo dobrado, não mais curto
Mesmo assim, acabei escolhendo com frequência os resultados do Gemini, e gostaria que houvesse uma avaliação em escala de 10 pontos em vez de só pass/fail
Se existisse uma exposição assim de verdade, eu certamente iria
Ultimamente quase não faço geração de imagem com IA
Há cerca de um ano e meio, rodar modelos localmente estava em alta, mas agora quase tudo migrou para o modelo baseado em nuvem
Mesmo assim, na edição de fotos reais ainda dá para sentir uma textura artificial em algum ponto
Por exemplo, cabelo humano fica brilhante demais, ou árvores parecem de plástico
Dá para rodar o Flux Kontext localmente, mas é preciso gerar devagar com um modelo quantizado, então é ineficiente
Além disso, como dá para criar imagens grátis no ChatGPT, há cada vez menos motivo para insistir no local
No teste de cabelo, só o Gemini 2.5 Flash acertou de verdade as cores e a textura,
e eu não gosto do Seedream 4 porque ele muda a correção de cor da imagem inteira
Acho que seria bom incluir o Reve no teste também
Removeu o objeto que o personagem segurava, virou o olhar para a câmera e ainda ajustou a pose de forma natural
Além disso, os 4 resultados tinham qualidade alta o bastante para serem todos utilizáveis
Depois li o post de apresentação do modelo da Reve e decidi me cadastrar na hora
A tentativa foi boa, mas prompts incorretos como “a torre da pintura está inclinada para a direita” fazem o modelo inclinar ainda mais
Como os prompts são ajustados por modelo, o número de tentativas acabou sendo diferente
No geral, foi um teste divertido
Há críticas de que os prompts não eram perfeitos, mas isso o torna mais realista, porque estão no nível do que um usuário comum provavelmente digitariam
Como explicado no FAQ, tento várias versões para que o modelo não fique preso a certas palavras
Por exemplo, frases no imperativo como “Turn on the lights” não são apenas instruções simples,
mas prompts para testar a capacidade de compreensão de um LLM multimodal
Esse tipo de frase jamais funcionaria em modelos tradicionais como o SDXL