6 pontos por GN⁺ 2026-04-22 | 4 comentários | Compartilhar no WhatsApp
  • A OpenAI revelou a próxima geração do modelo de geração de imagens e fez a própria apresentação sem escrever o texto no post, usando apenas texto inserido em imagens geradas com o Images 2.0
  • O foco está em gerar resultados prontos para uso, incluindo tarefas visuais complexas e renderização precisa de texto
  • É o primeiro modelo de imagem com capacidade de thinking; ele pode fazer busca na web, gerar várias imagens ao mesmo tempo e verificar a própria saída
  • O desempenho de renderização de caracteres não latinos melhorou bastante, incluindo japonês, coreano, chinês, híndi e bengali, tornando-o prático para criação de designs multilíngues
  • Com suporte flexível a proporções de 3:1 a 1:3, atende de imediato a diversos formatos, como banners, pôsteres e telas mobile
  • Propõe uma transição de uma ferramenta de renderização para um sistema de design estratégico e pode ser usado em todo o ecossistema ChatGPT, Codex e API

Uma nova era da geração de imagens

  • Define a imagem não como simples decoração, mas como uma linguagem, capaz de explicar mecanismos, criar atmosferas, validar ideias e transmitir argumentos
  • Depois de o ChatGPT Images lançado há um ano provar que imagens de IA podiam ser belas e úteis, o Images 2.0 surge como um modelo de próxima geração que lida com trabalhos visuais complexos com precisão
  • Houve um salto em fidelidade às instruções detalhadas, posicionamento preciso de objetos e relações entre eles, além de renderização de texto denso
  • A composição e a sensibilidade visual são fortes o suficiente para que o resultado pareça um design intencional, e não algo gerado por IA
  • Funciona com precisão em vários idiomas e, com conhecimento visual e de mundo ampliado, permite gerar imagens mais inteligentes com menos prompt
  • O modelo combina a inteligência dos modelos de raciocínio da OpenAI com a compreensão do mundo visual, transformando a geração de imagens de simples renderização em design estratégico, e de ferramenta em sistema visual
  • Disponível a partir de hoje para usuários de ChatGPT, Codex e API

Mais precisão e controle

  • O Images 2.0 oferece um nível sem precedentes de especificidade e fidelidade na geração de imagens
  • Ele não apenas concebe imagens mais sofisticadas, como também as implementa de forma eficaz, com destaque para aderência às instruções, preservação dos detalhes pedidos e renderização de elementos minuciosos
  • Lida, em até 2K de resolução, com texto pequeno, ícones, elementos de UI, composições densas e restrições sutis de estilo, áreas em que modelos anteriores tinham dificuldade
  • Gera resultados realmente prontos para uso, e não apenas “uma imagem mais ou menos parecida”

Suporte aprimorado a texto multilíngue

  • Modelos anteriores mostravam desempenho consistente em inglês e em idiomas com alfabeto latino, mas eram limitados no tratamento de caracteres não latinos em textos complexos ou densos
  • O Images 2.0 traz melhor compreensão multilíngue e, em especial, um grande avanço na renderização de texto não latino em japonês, coreano, chinês, híndi e bengali
  • Além de renderizar corretamente textos não ingleses, ele também pode gerar resultados com fluidez linguística natural
  • Vai além da simples tradução de rótulos, mantendo consistência visual em pôsteres, materiais explicativos, diagramas e quadrinhos em que a língua faz parte do design
  • Isso amplia o uso global, já que os usuários podem criar visuais no idioma que realmente usam

Refinamento de estilo e realismo

  • O Images 2.0 melhorou bastante a fidelidade em diversos estilos visuais
  • Há mais consistência na textura, iluminação, composição e detalhes de linguagens visuais distintas, como elementos característicos de fotografia (incluindo pequenas imperfeições que aumentam o realismo), stills de filmes, pixel art e quadrinhos
  • Em vez de apenas aproximar o estilo pedido, ele gera resultados que o refletem com fidelidade
  • É especialmente útil para prototipagem de jogos, storyboard, criativos de marketing e produção de assets de mídias ou gêneros específicos

Suporte flexível a proporções

  • Suporte amplo a proporções de 3:1 (horizontal) a 1:3 (vertical)
  • Gera imediatamente resultados no formato necessário para banners wide, slides de apresentação, pôsteres, telas mobile, marcadores e gráficos para redes sociais
  • É possível definir a proporção desejada no prompt ou recriar em um novo tamanho escolhendo entre opções predefinidas

Inteligência do mundo real

  • O Images 2.0 incorpora uma compreensão de mundo mais atualizada na geração de imagens, com o corte de conhecimento atualizado para dezembro de 2025
  • Isso o favorece em materiais como explicações visuais, mapas, gráficos educacionais e resumos visuais, em que precisão e clareza são tão importantes quanto a estética
  • Com inteligência aprimorada, ele pode executar fluxos de ponta a ponta, da síntese de informações à redação de copy e à visualização
    • Também demonstra senso de design limpo e organizado, considerando espaçamento, legibilidade e fluxo

Um parceiro de pensamento visual

  • Ao selecionar o modelo thinking ou pro, o modelo investe mais tempo para entender e executar a tarefa de forma agentic
  • Ele pode buscar informações relevantes na web, converter materiais enviados em explicações visuais claras e inferir a estrutura da imagem antes de gerá-la
  • Nesse modo, o Images 2.0 funciona como um parceiro de pensamento visual, reduzindo bastante o trabalho do usuário do rascunho conceitual ao asset final
  • No modo thinking, é possível gerar várias imagens diferentes ao mesmo tempo — um recurso inédito na geração de imagens do ChatGPT
    • Compatível com fluxos como séries de páginas de quadrinhos, direções de redesign de uma casa inteira, famílias de conceitos de pôsteres e conjuntos de gráficos para redes sociais em várias proporções e idiomas
  • Em vez de fazer prompts imagem por imagem e combinar tudo manualmente, é possível pedir de uma vez até 10 resultados consistentes com continuidade de personagens e objetos
    • Cada resultado é construído sequencialmente com base no anterior

4 comentários

 
j2sus91 2026-04-22

A imagem agora tem raciocínio embutido, e o resultado ficou absurdo.

Eu só joguei algumas palavras-chave relacionadas a um novo negócio,
mas ele inferiu até a mensagem central e os pain points, e incorporou tudo isso na landing page.

E, como base, ele ainda pega exatamente as cores da marca, o tom de voz da marca e até os modelos do site que eu tinha indicado como referência.
Vendo que nem o coreano quebrou, parece que as possibilidades de uso daqui para frente vão ser enormes..

Agora o avanço da IA está começando a ficar cada vez mais assustador.

 
kirinonakar 2026-04-22

Incrível mesmo. Já fiquei impressionado quando o Nano Banana saiu, mas agora ficou ainda melhor. Parece que, quando há concorrência, a evolução acontece mais rápido.

 
xguru 2026-04-22

Oh... o tratamento de texto era nível Nano Banana, mas desta vez parece que realmente capricharam.
Transformei em imagem todo o texto do conteúdo de apresentação.
Dá para ver o texto inteiro rolando pelas imagens.
A caligrafia no meio ficou impressionante

 
GN⁺ 2026-04-22
Opiniões no Hacker News
  • Testei o novo modelo assim. Com gpt-image-2, gerei uma "imagem no estilo Where's Waldo procurando um guaxinim com um rádio amador", e o código está aqui. O resultado é esta imagem, mas, sinceramente, nem eu tenho certeza se o guaxinim está mesmo segurando um rádio amador. Esse tipo de teste no estilo Where's Waldo nunca me dá muita paciência para procurar até o fim
    • Rodei de novo com o comando usando a resolução máxima e obtive um resultado bem melhor. Segui o tamanho recomendado no cookbook da OpenAI (link), e o resultado está aqui. Dessa vez encontrei o raccoon, e parece que cada imagem saiu por cerca de 40 centavos de dólar
    • Sou grato pela imagem, mas os rostos das pessoas estão tão bizarros que parecem coisa de pesadelo
    • Acho que esse prompt é uma tarefa brutalmente difícil para os modelos da família diffusion no estado atual. Então, por esse lado, a própria tentativa já parece impressionante
    • Quando li "não tenho paciência para procurar até o fim", senti que isso daria para virar um novo benchmark de IA
    • Esse tipo de tarefa me parece uma área em que a IA continuará fraca em detalhes estruturais. De longe parece convincente, mas de perto há erros demais: rostos que parecem estar gritando, placas apontando para os dois lados ao mesmo tempo, tendas de emergência que não existem, cachorros com aparência monstruosa. As amostras promocionais são parecidas, e exemplos como anatomia ou tabela periódica também desmoronam quando você olha de perto. No fim, fico cético se estamos só usando quantidades enormes de RAM & GPUs, água e eletricidade para fazer um Where's Waldo pior
  • Enquanto experimentava o Nano Banana Pro, criei um prompt muito divertido para testar a capacidade de seguir regras dos modelos de imagem. Era algo como: "coloque os Pokémon cujos números na National Pokédex correspondem aos primeiros 64 números primos em uma grade 8x8, desenhando-os em estilos 8-bit, charcoal e Ukiyo-e de acordo com o número de dígitos". O resultado do NBP está aqui, e os números, os Pokémon e os estilos estavam em geral corretos, embora haja discussão de que a aplicação de estilo foi preguiçosa e a imagem possa parecer plágio. O resultado do mesmo prompt em gpt-2-image high está aqui: ele produziu um estilo mais criativo e com mais cara de original, mas aplicou a lógica de estilo por linha, não com base nos números; errou alguns Pokémon, errou a fonte e a parte de baixo nem estava quadrada. Foi um resultado bem curioso
    • Achei esse teste realmente excelente e, ao mesmo tempo, achei meio engraçado que o gpt-2-image seja tão ruim assim. Cheguei a pensar que uma imagem plagiarized que parece simplesmente buscada e colada seria melhor. Pelo menos não parece haver nem uma checagem básica de sanity check nem uma etapa de pós-processamento para verificar se "seguiu as instruções direito", e as violações da restrição de estilo por número de dígitos teriam sido fáceis de detectar. Além disso, é caro, então decepciona ainda mais se o resultado é praticamente inutilizável
    • Fiquei mais curioso para saber por que esse prompt é visto como um bom prompt
  • Organizei os custos assim: ao gerar uma imagem 4096x4096 com gemini-3.1-flash-image-preview, dá 2.520 tokens, cerca de US$ 0,151 por imagem; já uma imagem 3840x2160 com gpt-image-2 dá 13.342 tokens, cerca de US$ 0,4. Então esse modelo é mais de 2x mais caro que o Gemini
    • Acho que essa comparação é apples to oranges. É como comparar a versão flash com a versão completa, e em detalhes finos esta aqui me parece subjetivamente algo como 5x melhor que a flash
  • Tenho um hard prompt que sempre uso para testar modelos de geração de imagem. É uma combinação de condições como mãos de um relojoeiro idoso, relógio de bolso vintage, água rasa, refração e caustics, gotas caindo, rosto distorcido refletido na superfície de vidro, lente macro de 100mm. As imagens resultantes foram colocadas no Google Drive, e rodei várias vezes tanto na web quanto na API, mas no geral não ficou tão bom quanto o Nano Banana
    • Fiquei curioso para saber por que isso é considerado um bom prompt
    • Tentei ver as imagens compartilhadas, mas parece que o host aplicou rate limit, então quis avisar
    • Confirmei que os links parecem quebrados
  • Achei que o gpt-image-1.5 da OpenAI e o NB2 do Google ficaram bem parelhos no meu site de comparação. Em avaliações focadas em aderência ao prompt, ambos mostraram taxa de sucesso de cerca de 70% em geração e edição, e em qualidade visual o Gemini sempre esteve um nível acima. Ainda assim, o gpt-image-1.5 foi um grande salto para a OpenAI e eliminou muitos problemas antigos, como o famigerado "piss filter". Os gráficos comparativos podem ser vistos para edição aqui e para geração aqui. Na atualização mais recente, o gpt-image-2 passou pelo eneagrama de 9 pontas, o chamado model killer do conjunto de testes, e acertou 12 de 15 no benchmark de texto-para-imagem, superando o melhor modelo anterior por 1 ponto. Ainda assim, continuou falhando em prompts como a coral snake com ordem de cores estrita, um D20 com os primeiros 20 números primos escritos nas faces e um planeta em formato de Terra plana com pessoas transbordando pelas bordas. A comparação completa está em All Models, e a dos principais modelos está aqui
  • Organizei uma comparação de preços. O GPT Image 2 custa, no nível Low, US$ 0,006 para 1024x1024 e US$ 0,005 para 1024x1536 e 1536x1024; no Medium, respectivamente US$ 0,053, US$ 0,041 e US$ 0,041; no High, US$ 0,211, US$ 0,165 e US$ 0,165. Já o GPT Image 1 custava, no Low, US$ 0,011, US$ 0,016 e US$ 0,016; no Medium, US$ 0,042, US$ 0,063 e US$ 0,063; no High, US$ 0,167, US$ 0,25 e US$ 0,25
    • Achei meio estranho essa limitação tão grande de resolução. Fico me perguntando se, ao gerar maior, o detalhe desmorona quando amplia, ou se simplesmente o custo dispara demais
    • Achei interessante que na v2 saídas grandes sejam mais caras que o quadrado pequeno, enquanto na v1 era o contrário. Fiquei curioso sobre o motivo dessa estrutura de preços
  • Confirmei que desta vez ele passou no teste das teclas de piano. Um caso de sucesso está aqui, embora a rotulagem do dó central tenha saído errada nesta tentativa. Mesmo assim, ao pedir de novo, ele corrigiu
    • Quando o NB 2 saiu, aumentei ainda mais a dificuldade desse teste. Inverti as cores de todos os accidentals e naturals, e mesmo assim ele acertou perfeitamente; há exemplos aqui
  • Achei a melhora na renderização de texto em chinês realmente nítida e impressionante. Ainda assim, a imagem de exemplo de Wuxi continuava com erros de digitação; por exemplo, o caractere 笼 em 小笼包 foi escrito de forma incorreta. Na seção "极小中文也清晰可读" também havia mais erros, mas nada que impedisse muito a leitura. Ainda assim, ficou claramente muito melhor do que os modelos anteriores de geração de imagem
    • Fiquei curioso se isso é melhor até do que modelos chineses feitos na própria China. Como eles provavelmente têm muito mais exemplos em chinês nos dados de treino, imagino que normalmente deem mais foco a esse ponto
  • Acho que este é um bom momento para mencionar o C2PA. É um padrão para provar ativamente a procedência de imagens, e a OpenAI também participa. Se eu coloco uma imagem que gerei com IA no C2PA Viewer, a origem aparece como ChatGPT. Claro que usuários maliciosos podem apagar os metadados e fazer a imagem parecer comum, mas no longo prazo acho que imagens sem indicação de procedência deveriam ser tratadas como um sinal de risco, como um non-https. Mais detalhes em c2pa.org
    • Acho difícil ver isso apenas como ação de bad actors. A maioria das plataformas, como Instagram e Facebook, remove metadados por padrão por questões de privacidade, e o EXIF pode conter localização, nome do arquivo, horário de criação e informações do dispositivo. Então, hoje, mais do que manipulação maliciosa, o problema prático maior para preservar C2PA parece ser a própria estrutura em que a maioria dos sites remove metadados ao fazer upload de imagens
    • Queria acrescentar que a OpenAI já anexava C2PA manifests às imagens geradas desde o começo. E, no meu pequeno critério de avaliação, detectores modernos de imagem de IA baseados em ML, como o OmniAID, conseguiram identificar muito bem imagens geradas por GPT-Image-2. O artigo relacionado está aqui, e eu mesmo criei um detector de imagens de IA on-device combinando essas duas coisas
  • Usei esse modelo por algumas horas e, sinceramente, achei bem impressionante. Foi a primeira vez que senti que um modelo de imagem realmente ajudou no meu trabalho de verdade, especialmente para fazer slides de PowerPoint e mockups