- Projeto experimental que testou vários modelos de IA de geração de imagens com o mesmo prompt para avaliar precisão, criatividade e consistência
- Participaram 14 modelos ao todo, incluindo OpenAI 4o, Gemini 2.5 Flash, Imagen 4, Seedream 4, FLUX.1 dev e Midjourney v7
- Todos os modelos geraram imagens sem inpainting nem recursos de edição, apenas com base na descrição fornecida
- Cada teste tinha um critério mínimo de aprovação claramente definido, e a taxa de sucesso foi calculada com base no cumprimento dos elementos visuais
- Os resultados revelam diferenças de desempenho entre os modelos e mostram que entender conceitos complexos ou gerar estruturas matemáticas ainda é difícil
Visão geral do experimento
- Trata-se de um experimento comparativo de benchmark que avaliou a capacidade pura de geração de cada modelo com base em regras rigorosas
- Recursos como inpainting, remix e instruções posteriores de modificação foram todos proibidos
- Cada modelo teve permissão para apenas algumas dezenas de tentativas por prompt
- Os critérios de avaliação se concentraram em cumprir com exatidão as condições visuais especificadas
Principais resultados dos testes
- The Prussian Ring Toss
- Cena de soldados prussianos jogando argolas nos capacetes com espigão uns dos outros
- 5 dos 6 modelos atenderam aos requisitos, com a maior taxa de sucesso
- Nine-Pointed Star
- Tarefa de gerar com precisão uma estrela com 9 pontas
- A maioria dos modelos convergiu para formas pares e falhou; apenas 3 tiveram sucesso
- Spheron
- Pintura em estilo óleo de Alexandre, o Grande, lutando enquanto monta um brinquedo ‘Hippity Hop’
- Avaliou a capacidade de combinar contexto histórico com objeto moderno; apenas 4 modelos passaram
- Cubed⁵
- Cena com 5 cubos de vidro transparentes empilhados verticalmente nas cores vermelho–azul–verde–roxo–amarelo
- 5 modelos reproduziram corretamente, e a proporção vertical teve grande impacto na qualidade do resultado
- Cephalopodic Puppet Show
- Cena em que cada um dos 8 tentáculos de um polvo usa um fantoche de meia
- Teste que exigia compreensão conceitual, com apenas metade atendendo aos critérios
Exemplos adicionais de testes
- Quantum Entangled Einstein: representação de Einstein e uma lâmpada de ideia relacionada à mecânica quântica → 3/6 de sucesso
- The Yarrctic Circle: imagem de um pirata do Ártico com perna de pau feita de gelo → 6/6, todos tiveram sucesso
- The Labyrinth: geração de um labirinto 2D com entrada, saída e caminho claramente definidos → 1/6 de sucesso
- A Dicey Situation: implementação, em um dado de 20 faces (D20), de faces marcadas apenas com números primos → 0/6, todos falharam
Análise e implicações
- Erros são frequentes não em estilos visuais simples, mas em estruturas lógicas e descrições baseadas em regras
- Em especial, prompts com condições precisas como texto, números, estruturas simétricas e ordem de cores apresentaram altas taxas de falha
- Por outro lado, prompts narrativos emocionais ou que exigem imaginação mostraram consistência relativamente maior
- No geral, os modelos GenAI ainda expõem limites na compreensão de conceitos compostos e na capacidade de reprodução estrutural
Resumo
- Este experimento é uma tentativa interessante de medir a “verdadeira capacidade de compreensão” entre modelos de texto-para-imagem
- Mesmo modelos recentes como Midjourney e OpenAI 4o falharam completamente em algumas cenas lógicas
- Os resultados mostram que “entender o texto” e “visualizar com precisão o seu significado” são problemas diferentes
- Um desafio central para a evolução futura dos modelos parece ser melhorar a coerência entre contexto linguístico e estrutura visual
1 comentários
Comentários do Hacker News
Bloquear até coisas legais dizendo que “não são permitidas” passa a sensação de censura corporativa imposta, como se fosse 1964
E o GPT-5 ficou ainda mais insuportável por começar toda conversa com frases bajuladoras como “Ótima pergunta” e “Excelente observação”
Quando se treina dados de preferência do usuário com RLHF, surge o efeito colateral de o modelo ficar viciado em bajulação
Hoje todos os principais LLMs estão assim, mas ainda acho que estão melhores que o GPT-4o
O ChatGPT é um produto voltado para empresas, então, se pudesse gerar imagens violentas ou sexualmente explícitas, nenhuma grande corporação compraria
Digo isso com 100% de certeza pela minha experiência trabalhando com compras de software para empresas da Fortune 500
Sem data, à primeira vista parece que foram criadas ao mesmo tempo
Espero que os dois lados do travesseiro deles estejam quentes
Na prática, é uma função para gerar uma nova imagem, mas o termo parece ter sido usado no sentido de modificar uma imagem existente
Modelos multimodais como o Qwen3-VL-30B-A3B editam bem imagens existentes. O imagegpt.com também era bom, mas não sei qual modelo ele usa
Só para constar, o Qwen3-VL não é um modelo de geração ou edição de imagens, mas sim um modelo de raciocínio sobre imagens
É provável que tenham usado Qwen-Image-Edit no backend
Por exemplo, se você der o prompt “adicionar cabelo a um homem careca”, o resultado parece uma versão modificada da imagem original
Tecnicamente é um processo de gerar uma nova imagem, mas eu vejo isso como algo parecido com usar Save As no Photoshop
O GPT-4o tem temperature mais baixa, então é mais consistente, mas menos criativo, enquanto o Midjourney usa temperature mais alta para criar fundos e texturas mais ricos
O tom sépia do 4o pode até ser pós-processamento
Na prática, é bem possível que haja um fluxo com várias etapas até lapidar a imagem final
Já os modelos baseados em LLM costumam usar bastante reescrita de prompt (prompt rewriting)
O caso do DALL·E 3 é bem explicado neste texto
Estou esperando feedback dos inscritos
Link do Generative AI Review
Ainda assim, não entendi exatamente a estrutura em que, depois de várias tentativas, outro LLM faz a avaliação. Não haveria uma limitação de precisão nisso?
É um esquema de PASS/FAIL: se não conseguir gerar nem uma vez uma imagem que atenda ao prompt, conta como falha
A ideia é um tipo de teste de Pictionary: “será que qualquer pessoa na rua conseguiria adivinhar o prompt ao ver a imagem?”
A avaliação final é decidida manualmente com base em critérios claros
Não dá para trancar um avaliador humano numa caixa para julgar 7.600 resultados
Claro que avaliação por LLM não é perfeita, mas em termos de comparabilidade e consistência ela é melhor que humanos
E, se isso for usado apenas como termômetro de desempenho, e não como alvo de otimização, não há grande problema
Mas, se virar alvo de otimização, pode acabar produzindo resultados estranhos, como no GPT-5