1 pontos por GN⁺ 2025-10-28 | 1 comentários | Compartilhar no WhatsApp
  • Projeto experimental que testou vários modelos de IA de geração de imagens com o mesmo prompt para avaliar precisão, criatividade e consistência
  • Participaram 14 modelos ao todo, incluindo OpenAI 4o, Gemini 2.5 Flash, Imagen 4, Seedream 4, FLUX.1 dev e Midjourney v7
  • Todos os modelos geraram imagens sem inpainting nem recursos de edição, apenas com base na descrição fornecida
  • Cada teste tinha um critério mínimo de aprovação claramente definido, e a taxa de sucesso foi calculada com base no cumprimento dos elementos visuais
  • Os resultados revelam diferenças de desempenho entre os modelos e mostram que entender conceitos complexos ou gerar estruturas matemáticas ainda é difícil

Visão geral do experimento

  • Trata-se de um experimento comparativo de benchmark que avaliou a capacidade pura de geração de cada modelo com base em regras rigorosas
    • Recursos como inpainting, remix e instruções posteriores de modificação foram todos proibidos
    • Cada modelo teve permissão para apenas algumas dezenas de tentativas por prompt
  • Os critérios de avaliação se concentraram em cumprir com exatidão as condições visuais especificadas

Principais resultados dos testes

  • The Prussian Ring Toss
    • Cena de soldados prussianos jogando argolas nos capacetes com espigão uns dos outros
    • 5 dos 6 modelos atenderam aos requisitos, com a maior taxa de sucesso
  • Nine-Pointed Star
    • Tarefa de gerar com precisão uma estrela com 9 pontas
    • A maioria dos modelos convergiu para formas pares e falhou; apenas 3 tiveram sucesso
  • Spheron
    • Pintura em estilo óleo de Alexandre, o Grande, lutando enquanto monta um brinquedo ‘Hippity Hop’
    • Avaliou a capacidade de combinar contexto histórico com objeto moderno; apenas 4 modelos passaram
  • Cubed⁵
    • Cena com 5 cubos de vidro transparentes empilhados verticalmente nas cores vermelho–azul–verde–roxo–amarelo
    • 5 modelos reproduziram corretamente, e a proporção vertical teve grande impacto na qualidade do resultado
  • Cephalopodic Puppet Show
    • Cena em que cada um dos 8 tentáculos de um polvo usa um fantoche de meia
    • Teste que exigia compreensão conceitual, com apenas metade atendendo aos critérios

Exemplos adicionais de testes

  • Quantum Entangled Einstein: representação de Einstein e uma lâmpada de ideia relacionada à mecânica quântica → 3/6 de sucesso
  • The Yarrctic Circle: imagem de um pirata do Ártico com perna de pau feita de gelo → 6/6, todos tiveram sucesso
  • The Labyrinth: geração de um labirinto 2D com entrada, saída e caminho claramente definidos → 1/6 de sucesso
  • A Dicey Situation: implementação, em um dado de 20 faces (D20), de faces marcadas apenas com números primos → 0/6, todos falharam

Análise e implicações

  • Erros são frequentes não em estilos visuais simples, mas em estruturas lógicas e descrições baseadas em regras
  • Em especial, prompts com condições precisas como texto, números, estruturas simétricas e ordem de cores apresentaram altas taxas de falha
  • Por outro lado, prompts narrativos emocionais ou que exigem imaginação mostraram consistência relativamente maior
  • No geral, os modelos GenAI ainda expõem limites na compreensão de conceitos compostos e na capacidade de reprodução estrutural

Resumo

  • Este experimento é uma tentativa interessante de medir a “verdadeira capacidade de compreensão” entre modelos de texto-para-imagem
  • Mesmo modelos recentes como Midjourney e OpenAI 4o falharam completamente em algumas cenas lógicas
  • Os resultados mostram que “entender o texto” e “visualizar com precisão o seu significado” são problemas diferentes
  • Um desafio central para a evolução futura dos modelos parece ser melhorar a coerência entre contexto linguístico e estrutura visual

1 comentários

 
GN⁺ 2025-10-28
Comentários do Hacker News
  • É muito irritante usar o GPT-4o e ver a empresa agir como uma árbitra moral, recusando com frequência pedidos do usuário
    Bloquear até coisas legais dizendo que “não são permitidas” passa a sensação de censura corporativa imposta, como se fosse 1964
    E o GPT-5 ficou ainda mais insuportável por começar toda conversa com frases bajuladoras como “Ótima pergunta” e “Excelente observação”
    • Muita gente criticou o Altman por permitir NSFW no ChatGPT, mas eu acho que essa é a direção certa para reduzir a censura corporativa
      Quando se treina dados de preferência do usuário com RLHF, surge o efeito colateral de o modelo ficar viciado em bajulação
      Hoje todos os principais LLMs estão assim, mas ainda acho que estão melhores que o GPT-4o
    • Se você usar modelos chineses, vai ver que têm bem menos restrições, embora existam algumas exceções
    • Nunca vi software corporativo que permita NSFW
      O ChatGPT é um produto voltado para empresas, então, se pudesse gerar imagens violentas ou sexualmente explícitas, nenhuma grande corporação compraria
      Digo isso com 100% de certeza pela minha experiência trabalhando com compras de software para empresas da Fortune 500
  • Achei estranho o artigo não ter data, mas no Wayback confirmei que a página de text-to-image foi adicionada em abril e a página de edição de imagem em setembro
    Sem data, à primeira vista parece que foram criadas ao mesmo tempo
    • Acho que foi porque pessoal de SEO convenceu alguém de que artigos sem data ranqueiam melhor nos buscadores
      Espero que os dois lados do travesseiro deles estejam quentes
    • Sim, isso já é bem antigo. Em IA hoje em dia, uma semana já basta para algo ficar ultrapassado
  • No começo, o termo “image editing” me confundiu
    Na prática, é uma função para gerar uma nova imagem, mas o termo parece ter sido usado no sentido de modificar uma imagem existente
    Modelos multimodais como o Qwen3-VL-30B-A3B editam bem imagens existentes. O imagegpt.com também era bom, mas não sei qual modelo ele usa
    • Recebi esse feedback várias vezes e agora acho que preciso destacar mais a barra de navegação superior
      Só para constar, o Qwen3-VL não é um modelo de geração ou edição de imagens, mas sim um modelo de raciocínio sobre imagens
      É provável que tenham usado Qwen-Image-Edit no backend
    • No site que eu vi, parecia mesmo editar imagens existentes
      Por exemplo, se você der o prompt “adicionar cabelo a um homem careca”, o resultado parece uma versão modificada da imagem original
      Tecnicamente é um processo de gerar uma nova imagem, mas eu vejo isso como algo parecido com usar Save As no Photoshop
  • O link correto é https://genai-showdown.specr.net/image-editing
    • Isso mesmo, esse é o link da edição. O outro é para text-to-image
  • Imagino que os modelos gerem várias imagens internamente e mostrem só o melhor resultado
    O GPT-4o tem temperature mais baixa, então é mais consistente, mas menos criativo, enquanto o Midjourney usa temperature mais alta para criar fundos e texturas mais ricos
    O tom sépia do 4o pode até ser pós-processamento
    Na prática, é bem possível que haja um fluxo com várias etapas até lapidar a imagem final
    • Se você já rodou modelos de imagem localmente, sabe que a maioria dos modelos hospedados não gera várias vezes, só roda uma vez
      Já os modelos baseados em LLM costumam usar bastante reescrita de prompt (prompt rewriting)
      O caso do DALL·E 3 é bem explicado neste texto
    • Seria mais interessante se divulgassem o número de tentativas de geração e os resultados de cada prompt
  • Dei upvote na hora quando vi “Alexander the Great on a Hippity Hop”
    • Eu também tinha esquecido completamente desse brinquedo, mas ver isso me trouxe memórias da infância
    • Mesmo assim, ainda prefiro a imagem quimera de cavalo
  • Se você quiser testar comparativamente modelos de imagem, dá para experimentar de graça no BrandImageGen.com
    Estou esperando feedback dos inscritos
  • Alguém perguntou onde está o meme de “não desenhe um elefante verde” e encontrou a sugestão na discussão do GitHub
  • Foi publicado um texto com review comparativo de várias ferramentas de geração de imagem
    Link do Generative AI Review
  • Foi graças ao “Editing Showdown” que conheci o modelo Seedream pela primeira vez
    Ainda assim, não entendi exatamente a estrutura em que, depois de várias tentativas, outro LLM faz a avaliação. Não haveria uma limitação de precisão nisso?
    • O FAQ deixa os critérios de avaliação bem claros
      É um esquema de PASS/FAIL: se não conseguir gerar nem uma vez uma imagem que atenda ao prompt, conta como falha
      A ideia é um tipo de teste de Pictionary: “será que qualquer pessoa na rua conseguiria adivinhar o prompt ao ver a imagem?”
      A avaliação final é decidida manualmente com base em critérios claros
    • LLM avaliando LLM é padrão da indústria
      Não dá para trancar um avaliador humano numa caixa para julgar 7.600 resultados
      Claro que avaliação por LLM não é perfeita, mas em termos de comparabilidade e consistência ela é melhor que humanos
      E, se isso for usado apenas como termômetro de desempenho, e não como alvo de otimização, não há grande problema
      Mas, se virar alvo de otimização, pode acabar produzindo resultados estranhos, como no GPT-5