1 pontos por GN⁺ 2025-10-30 | 1 comentários | Compartilhar no WhatsApp
  • Conteúdo em formato de comparação dos resultados de várias ferramentas de edição de imagens com IA generativa
  • Estrutura que compara visualmente os resultados de edição gerados por cada ferramenta para a mesma entrada
  • A página exibe a mensagem “Loading editing comparisons...”, indicando que a comparação de edições está sendo carregada
  • Além do título, não são fornecidos nomes específicos de ferramentas, critérios de comparação ou descrição dos resultados
  • De modo geral, parece ser uma interface para comparar o desempenho de edição de imagens por IA, mas o texto original não traz detalhes

Visão geral da página

  • O título é “Generative AI Image Editing Showdown”, sugerindo uma comparação entre vários modelos de edição de imagens com IA
  • No corpo, existe apenas a frase “Loading editing comparisons...”, e não há resultados da comparação nem explicações
  • O texto original não inclui textos adicionais, dados, imagens, lista de ferramentas ou critérios de avaliação

Limitações das informações fornecidas

  • O texto original não traz descrição concreta dos resultados de edição nem do conteúdo da comparação
  • Portanto, não ficam especificados o objetivo da comparação, os modelos de IA usados nem a forma de avaliação
  • Em geral, o conteúdo parece estar em estado de carregamento, sem fornecer informações substanciais

1 comentários

 
GN⁺ 2025-10-30
Opiniões do Hacker News
  • Todo mundo está subestimando o Gemini 2.5 Flash Image / Nano Banana
    Ele é muito mais poderoso que outros modelos, com o mesmo preço por imagem, e graças ao encoder de texto consegue lidar com prompts muito mais complexos e sutis
    Publiquei exemplos com o pacote Python gemimg que criei, e também estou preparando um post de blog com casos mais variados
    O AI Studio do Google ainda oferece geração gratuita com até controle de proporção
    Mesmo assim, foi surpreendente o Seedream 4.0 ter vencido neste teste

    • Na verdade, o Nano Banana teve bastante viralização quando foi lançado
      Tirando recursos embutidos do ChatGPT ou a moda do estilo Ghibli, acho que ele é um dos modelos de edição de imagem mais conhecidos
    • O Seedream foi melhor em fidelidade ao prompt, mas tende a causar pequenas mudanças de gradiente de cor
      Para o meu uso isso não é um grande problema, mas para quem precisa de consistência de cores, o Nano Banana pode ser melhor
    • Quando uso o Nano Banana, em cerca de metade das vezes o AI Studio diz que falhou sem motivo
      Nem eram pedidos na fronteira de copyright, mas esse tipo de erro acontece com frequência
      Ainda assim, quando funciona, o resultado é muito impressionante
    • Usei o Nano Banana para arrumar uma foto da minha cozinha bagunçada e no começo falhou completamente
      Na segunda tentativa, primeiro extraí uma lista dos itens bagunçados com análise de imagem, e depois removi isso via prompt, o que deu um resultado bem melhor
      No fim, senti de novo a importância de engenharia de prompt
    • O Gemini é excelente quando funciona bem, mas às vezes gera resultados totalmente sem sentido e não acerta com prompt nenhum
      O Flux é surpreendentemente bom, mas a maioria das pessoas, eu incluso, acaba usando por padrão modelos familiares como ChatGPT ou Gemini
  • Comparações assim são muito mais práticas do que gráficos de benchmark
    Eu uso bastante o Nano Banana, mas ele é fraco para edição de exteriores de prédios ou paisagismo
    Coisas como calçadas, valas de drenagem e correspondência de cores são quase impossíveis

    • Estou fazendo experimentos com o Qwen Image Edit para transformar fotos diurnas em noturnas, e a maioria dos modelos erra no alinhamento das bordas
      O Nano Banana também trata mal as bordas, então a foto fica desalinhada
  • Para quem definiu a referência em 2022, os demos de hoje são impressionantes a um nível incomparável com a era do SD1·2·3
    Parece que agora entramos na era em que os modelos realmente entendem prompts e imagens
    É um momento em que a criatividade está se expandindo de forma explosiva à medida que a engenharia continua avançando

  • Mudar o prompt ou o número de tentativas e depois mostrar só o resultado favorito enfraquece a objetividade do teste
    É preciso haver condições padronizadas, como 5 gerações para todos os modelos com o mesmo prompt e a mesma seed
    Por exemplo, o Gemini 2.5 Flash recebeu liberdade excessiva no teste de “Girl with Pearl Earring”,
    enquanto o OpenAI gpt-image-1, mesmo tendo produzido um resultado muito melhor em menos tentativas, acabou tratado como fracasso

    • Só para constar, o exemplo de gpt-image-1 era para o teste “You Only Move Twice”
    • Seria até melhor fazer uma competição de “pior imagem”, porque aí ficaria mais claro qual modelo é menos frustrante
  • No texto que publiquei no blog da Replicate, comparei vários modelos diretamente
    Entre eles, o Qwen Image Edit foi o mais barato e rápido, além de lidar bem com a maioria das tarefas de edição
    Se eu fosse criar um app de edição de imagem, provavelmente escolheria esse modelo

  • A comparação em si foi interessante, mas a imagem final da girafa só ficou com o corpo dobrado, não mais curto
    Mesmo assim, acabei escolhendo com frequência os resultados do Gemini, e gostaria que houvesse uma avaliação em escala de 10 pontos em vez de só pass/fail

    • A expressão “girafa dobrada de forma estranha” foi engraçada demais
      Se existisse uma exposição assim de verdade, eu certamente iria
  • Ultimamente quase não faço geração de imagem com IA
    Há cerca de um ano e meio, rodar modelos localmente estava em alta, mas agora quase tudo migrou para o modelo baseado em nuvem
    Mesmo assim, na edição de fotos reais ainda dá para sentir uma textura artificial em algum ponto
    Por exemplo, cabelo humano fica brilhante demais, ou árvores parecem de plástico

    • O tamanho dos modelos de imagem e a demanda computacional cresceram tanto que ficou difícil fazer self-hosting como indivíduo
      Dá para rodar o Flux Kontext localmente, mas é preciso gerar devagar com um modelo quantizado, então é ineficiente
      Além disso, como dá para criar imagens grátis no ChatGPT, há cada vez menos motivo para insistir no local
      No teste de cabelo, só o Gemini 2.5 Flash acertou de verdade as cores e a textura,
      e eu não gosto do Seedream 4 porque ele muda a correção de cor da imagem inteira
  • Acho que seria bom incluir o Reve no teste também

    • Com o Nano Banana não consegui mudar direito a direção do olhar do personagem, mas o Reve entregou um resultado perfeito na primeira tentativa
      Removeu o objeto que o personagem segurava, virou o olhar para a câmera e ainda ajustou a pose de forma natural
      Além disso, os 4 resultados tinham qualidade alta o bastante para serem todos utilizáveis
      Depois li o post de apresentação do modelo da Reve e decidi me cadastrar na hora
    • Obrigado pela recomendação, vou tentar adicionar à lista de testes depois
    • Valeu pela dica
  • A tentativa foi boa, mas prompts incorretos como “a torre da pintura está inclinada para a direita” fazem o modelo inclinar ainda mais

    • Essa frase não era o prompt de entrada real, e sim uma frase inicial
      Como os prompts são ajustados por modelo, o número de tentativas acabou sendo diferente
  • No geral, foi um teste divertido
    Há críticas de que os prompts não eram perfeitos, mas isso o torna mais realista, porque estão no nível do que um usuário comum provavelmente digitariam

    • Eu trabalho com prompts desde a era do SD 1.5, então conheço bem as variações de prompt necessárias para cada modelo
      Como explicado no FAQ, tento várias versões para que o modelo não fique preso a certas palavras
      Por exemplo, frases no imperativo como “Turn on the lights” não são apenas instruções simples,
      mas prompts para testar a capacidade de compreensão de um LLM multimodal
      Esse tipo de frase jamais funcionaria em modelos tradicionais como o SDXL