Showdown de imagens GenAI

(genai-showdown.specr.net)

1 pontos por GN⁺ 2025-10-28 | 1 comentários | Compartilhar no WhatsApp

Projeto experimental que testou vários modelos de IA de geração de imagens com o mesmo prompt para avaliar precisão, criatividade e consistência
Participaram 14 modelos ao todo, incluindo OpenAI 4o, Gemini 2.5 Flash, Imagen 4, Seedream 4, FLUX.1 dev e Midjourney v7
Todos os modelos geraram imagens sem inpainting nem recursos de edição, apenas com base na descrição fornecida
Cada teste tinha um critério mínimo de aprovação claramente definido, e a taxa de sucesso foi calculada com base no cumprimento dos elementos visuais
Os resultados revelam diferenças de desempenho entre os modelos e mostram que entender conceitos complexos ou gerar estruturas matemáticas ainda é difícil

Visão geral do experimento

Trata-se de um experimento comparativo de benchmark que avaliou a capacidade pura de geração de cada modelo com base em regras rigorosas
- Recursos como inpainting, remix e instruções posteriores de modificação foram todos proibidos
- Cada modelo teve permissão para apenas algumas dezenas de tentativas por prompt
Os critérios de avaliação se concentraram em cumprir com exatidão as condições visuais especificadas

Principais resultados dos testes

The Prussian Ring Toss
- Cena de soldados prussianos jogando argolas nos capacetes com espigão uns dos outros
- 5 dos 6 modelos atenderam aos requisitos, com a maior taxa de sucesso
Nine-Pointed Star
- Tarefa de gerar com precisão uma estrela com 9 pontas
- A maioria dos modelos convergiu para formas pares e falhou; apenas 3 tiveram sucesso
Spheron
- Pintura em estilo óleo de Alexandre, o Grande, lutando enquanto monta um brinquedo ‘Hippity Hop’
- Avaliou a capacidade de combinar contexto histórico com objeto moderno; apenas 4 modelos passaram
Cubed⁵
- Cena com 5 cubos de vidro transparentes empilhados verticalmente nas cores vermelho–azul–verde–roxo–amarelo
- 5 modelos reproduziram corretamente, e a proporção vertical teve grande impacto na qualidade do resultado
Cephalopodic Puppet Show
- Cena em que cada um dos 8 tentáculos de um polvo usa um fantoche de meia
- Teste que exigia compreensão conceitual, com apenas metade atendendo aos critérios

Exemplos adicionais de testes

Quantum Entangled Einstein: representação de Einstein e uma lâmpada de ideia relacionada à mecânica quântica → 3/6 de sucesso
The Yarrctic Circle: imagem de um pirata do Ártico com perna de pau feita de gelo → 6/6, todos tiveram sucesso
The Labyrinth: geração de um labirinto 2D com entrada, saída e caminho claramente definidos → 1/6 de sucesso
A Dicey Situation: implementação, em um dado de 20 faces (D20), de faces marcadas apenas com números primos → 0/6, todos falharam

Análise e implicações

Erros são frequentes não em estilos visuais simples, mas em estruturas lógicas e descrições baseadas em regras
Em especial, prompts com condições precisas como texto, números, estruturas simétricas e ordem de cores apresentaram altas taxas de falha
Por outro lado, prompts narrativos emocionais ou que exigem imaginação mostraram consistência relativamente maior
No geral, os modelos GenAI ainda expõem limites na compreensão de conceitos compostos e na capacidade de reprodução estrutural

Resumo

Este experimento é uma tentativa interessante de medir a “verdadeira capacidade de compreensão” entre modelos de texto-para-imagem
Mesmo modelos recentes como Midjourney e OpenAI 4o falharam completamente em algumas cenas lógicas
Os resultados mostram que “entender o texto” e “visualizar com precisão o seu significado” são problemas diferentes
Um desafio central para a evolução futura dos modelos parece ser melhorar a coerência entre contexto linguístico e estrutura visual

1 comentários

GN⁺ 2025-10-28

Comentários do Hacker News

É muito irritante usar o GPT-4o e ver a empresa agir como uma árbitra moral, recusando com frequência pedidos do usuário
Bloquear até coisas legais dizendo que “não são permitidas” passa a sensação de censura corporativa imposta, como se fosse 1964
E o GPT-5 ficou ainda mais insuportável por começar toda conversa com frases bajuladoras como “Ótima pergunta” e “Excelente observação”
- Muita gente criticou o Altman por permitir NSFW no ChatGPT, mas eu acho que essa é a direção certa para reduzir a censura corporativa
  Quando se treina dados de preferência do usuário com RLHF, surge o efeito colateral de o modelo ficar viciado em bajulação
  Hoje todos os principais LLMs estão assim, mas ainda acho que estão melhores que o GPT-4o
- Se você usar modelos chineses, vai ver que têm bem menos restrições, embora existam algumas exceções
- Nunca vi software corporativo que permita NSFW
  O ChatGPT é um produto voltado para empresas, então, se pudesse gerar imagens violentas ou sexualmente explícitas, nenhuma grande corporação compraria
  Digo isso com 100% de certeza pela minha experiência trabalhando com compras de software para empresas da Fortune 500
Achei estranho o artigo não ter data, mas no Wayback confirmei que a página de text-to-image foi adicionada em abril e a página de edição de imagem em setembro
Sem data, à primeira vista parece que foram criadas ao mesmo tempo
- Acho que foi porque pessoal de SEO convenceu alguém de que artigos sem data ranqueiam melhor nos buscadores
  Espero que os dois lados do travesseiro deles estejam quentes
- Sim, isso já é bem antigo. Em IA hoje em dia, uma semana já basta para algo ficar ultrapassado
No começo, o termo “image editing” me confundiu
Na prática, é uma função para gerar uma nova imagem, mas o termo parece ter sido usado no sentido de modificar uma imagem existente
Modelos multimodais como o Qwen3-VL-30B-A3B editam bem imagens existentes. O imagegpt.com também era bom, mas não sei qual modelo ele usa
- Recebi esse feedback várias vezes e agora acho que preciso destacar mais a barra de navegação superior
  Só para constar, o Qwen3-VL não é um modelo de geração ou edição de imagens, mas sim um modelo de raciocínio sobre imagens
  É provável que tenham usado Qwen-Image-Edit no backend
- No site que eu vi, parecia mesmo editar imagens existentes
  Por exemplo, se você der o prompt “adicionar cabelo a um homem careca”, o resultado parece uma versão modificada da imagem original
  Tecnicamente é um processo de gerar uma nova imagem, mas eu vejo isso como algo parecido com usar Save As no Photoshop
O link correto é https://genai-showdown.specr.net/image-editing
- Isso mesmo, esse é o link da edição. O outro é para text-to-image
Imagino que os modelos gerem várias imagens internamente e mostrem só o melhor resultado
O GPT-4o tem temperature mais baixa, então é mais consistente, mas menos criativo, enquanto o Midjourney usa temperature mais alta para criar fundos e texturas mais ricos
O tom sépia do 4o pode até ser pós-processamento
Na prática, é bem possível que haja um fluxo com várias etapas até lapidar a imagem final
- Se você já rodou modelos de imagem localmente, sabe que a maioria dos modelos hospedados não gera várias vezes, só roda uma vez
  Já os modelos baseados em LLM costumam usar bastante reescrita de prompt (prompt rewriting)
  O caso do DALL·E 3 é bem explicado neste texto
- Seria mais interessante se divulgassem o número de tentativas de geração e os resultados de cada prompt
Dei upvote na hora quando vi “Alexander the Great on a Hippity Hop”
- Eu também tinha esquecido completamente desse brinquedo, mas ver isso me trouxe memórias da infância
- Mesmo assim, ainda prefiro a imagem quimera de cavalo
Se você quiser testar comparativamente modelos de imagem, dá para experimentar de graça no BrandImageGen.com
Estou esperando feedback dos inscritos
Alguém perguntou onde está o meme de “não desenhe um elefante verde” e encontrou a sugestão na discussão do GitHub
Foi publicado um texto com review comparativo de várias ferramentas de geração de imagem
Link do Generative AI Review
Foi graças ao “Editing Showdown” que conheci o modelo Seedream pela primeira vez
Ainda assim, não entendi exatamente a estrutura em que, depois de várias tentativas, outro LLM faz a avaliação. Não haveria uma limitação de precisão nisso?
- O FAQ deixa os critérios de avaliação bem claros
  É um esquema de PASS/FAIL: se não conseguir gerar nem uma vez uma imagem que atenda ao prompt, conta como falha
  A ideia é um tipo de teste de Pictionary: “será que qualquer pessoa na rua conseguiria adivinhar o prompt ao ver a imagem?”
  A avaliação final é decidida manualmente com base em critérios claros
- LLM avaliando LLM é padrão da indústria
  Não dá para trancar um avaliador humano numa caixa para julgar 7.600 resultados
  Claro que avaliação por LLM não é perfeita, mas em termos de comparabilidade e consistência ela é melhor que humanos
  E, se isso for usado apenas como termômetro de desempenho, e não como alvo de otimização, não há grande problema
  Mas, se virar alvo de otimização, pode acabar produzindo resultados estranhos, como no GPT-5

Showdown de imagens GenAI

Visão geral do experimento

Principais resultados dos testes

Exemplos adicionais de testes

Análise e implicações

Resumo

Leituras relacionadas

1 comentários

Comentários do Hacker News