Lançado o ChatGPT Images 2.0

(openai.com)

6 pontos por GN⁺ 2026-04-22 | 4 comentários | Compartilhar no WhatsApp

A OpenAI revelou a próxima geração do modelo de geração de imagens e fez a própria apresentação sem escrever o texto no post, usando apenas texto inserido em imagens geradas com o Images 2.0
O foco está em gerar resultados prontos para uso, incluindo tarefas visuais complexas e renderização precisa de texto
É o primeiro modelo de imagem com capacidade de thinking; ele pode fazer busca na web, gerar várias imagens ao mesmo tempo e verificar a própria saída
O desempenho de renderização de caracteres não latinos melhorou bastante, incluindo japonês, coreano, chinês, híndi e bengali, tornando-o prático para criação de designs multilíngues
Com suporte flexível a proporções de 3:1 a 1:3, atende de imediato a diversos formatos, como banners, pôsteres e telas mobile
Propõe uma transição de uma ferramenta de renderização para um sistema de design estratégico e pode ser usado em todo o ecossistema ChatGPT, Codex e API

Uma nova era da geração de imagens

Define a imagem não como simples decoração, mas como uma linguagem, capaz de explicar mecanismos, criar atmosferas, validar ideias e transmitir argumentos
Depois de o ChatGPT Images lançado há um ano provar que imagens de IA podiam ser belas e úteis, o Images 2.0 surge como um modelo de próxima geração que lida com trabalhos visuais complexos com precisão
Houve um salto em fidelidade às instruções detalhadas, posicionamento preciso de objetos e relações entre eles, além de renderização de texto denso
A composição e a sensibilidade visual são fortes o suficiente para que o resultado pareça um design intencional, e não algo gerado por IA
Funciona com precisão em vários idiomas e, com conhecimento visual e de mundo ampliado, permite gerar imagens mais inteligentes com menos prompt
O modelo combina a inteligência dos modelos de raciocínio da OpenAI com a compreensão do mundo visual, transformando a geração de imagens de simples renderização em design estratégico, e de ferramenta em sistema visual
Disponível a partir de hoje para usuários de ChatGPT, Codex e API

Mais precisão e controle

O Images 2.0 oferece um nível sem precedentes de especificidade e fidelidade na geração de imagens
Ele não apenas concebe imagens mais sofisticadas, como também as implementa de forma eficaz, com destaque para aderência às instruções, preservação dos detalhes pedidos e renderização de elementos minuciosos
Lida, em até 2K de resolução, com texto pequeno, ícones, elementos de UI, composições densas e restrições sutis de estilo, áreas em que modelos anteriores tinham dificuldade
Gera resultados realmente prontos para uso, e não apenas “uma imagem mais ou menos parecida”

Suporte aprimorado a texto multilíngue

Modelos anteriores mostravam desempenho consistente em inglês e em idiomas com alfabeto latino, mas eram limitados no tratamento de caracteres não latinos em textos complexos ou densos
O Images 2.0 traz melhor compreensão multilíngue e, em especial, um grande avanço na renderização de texto não latino em japonês, coreano, chinês, híndi e bengali
Além de renderizar corretamente textos não ingleses, ele também pode gerar resultados com fluidez linguística natural
Vai além da simples tradução de rótulos, mantendo consistência visual em pôsteres, materiais explicativos, diagramas e quadrinhos em que a língua faz parte do design
Isso amplia o uso global, já que os usuários podem criar visuais no idioma que realmente usam

Refinamento de estilo e realismo

O Images 2.0 melhorou bastante a fidelidade em diversos estilos visuais
Há mais consistência na textura, iluminação, composição e detalhes de linguagens visuais distintas, como elementos característicos de fotografia (incluindo pequenas imperfeições que aumentam o realismo), stills de filmes, pixel art e quadrinhos
Em vez de apenas aproximar o estilo pedido, ele gera resultados que o refletem com fidelidade
É especialmente útil para prototipagem de jogos, storyboard, criativos de marketing e produção de assets de mídias ou gêneros específicos

Suporte flexível a proporções

Suporte amplo a proporções de 3:1 (horizontal) a 1:3 (vertical)
Gera imediatamente resultados no formato necessário para banners wide, slides de apresentação, pôsteres, telas mobile, marcadores e gráficos para redes sociais
É possível definir a proporção desejada no prompt ou recriar em um novo tamanho escolhendo entre opções predefinidas

Inteligência do mundo real

O Images 2.0 incorpora uma compreensão de mundo mais atualizada na geração de imagens, com o corte de conhecimento atualizado para dezembro de 2025
Isso o favorece em materiais como explicações visuais, mapas, gráficos educacionais e resumos visuais, em que precisão e clareza são tão importantes quanto a estética
Com inteligência aprimorada, ele pode executar fluxos de ponta a ponta, da síntese de informações à redação de copy e à visualização
- Também demonstra senso de design limpo e organizado, considerando espaçamento, legibilidade e fluxo

Um parceiro de pensamento visual

Ao selecionar o modelo thinking ou pro, o modelo investe mais tempo para entender e executar a tarefa de forma agentic
Ele pode buscar informações relevantes na web, converter materiais enviados em explicações visuais claras e inferir a estrutura da imagem antes de gerá-la
Nesse modo, o Images 2.0 funciona como um parceiro de pensamento visual, reduzindo bastante o trabalho do usuário do rascunho conceitual ao asset final
No modo thinking, é possível gerar várias imagens diferentes ao mesmo tempo — um recurso inédito na geração de imagens do ChatGPT
- Compatível com fluxos como séries de páginas de quadrinhos, direções de redesign de uma casa inteira, famílias de conceitos de pôsteres e conjuntos de gráficos para redes sociais em várias proporções e idiomas
Em vez de fazer prompts imagem por imagem e combinar tudo manualmente, é possível pedir de uma vez até 10 resultados consistentes com continuidade de personagens e objetos
- Cada resultado é construído sequencialmente com base no anterior

4 comentários

j2sus91 2026-04-22

A imagem agora tem raciocínio embutido, e o resultado ficou absurdo.

Eu só joguei algumas palavras-chave relacionadas a um novo negócio,
mas ele inferiu até a mensagem central e os pain points, e incorporou tudo isso na landing page.

E, como base, ele ainda pega exatamente as cores da marca, o tom de voz da marca e até os modelos do site que eu tinha indicado como referência.
Vendo que nem o coreano quebrou, parece que as possibilidades de uso daqui para frente vão ser enormes..

Agora o avanço da IA está começando a ficar cada vez mais assustador.

kirinonakar 2026-04-22

Incrível mesmo. Já fiquei impressionado quando o Nano Banana saiu, mas agora ficou ainda melhor. Parece que, quando há concorrência, a evolução acontece mais rápido.

xguru 2026-04-22

Oh... o tratamento de texto era nível Nano Banana, mas desta vez parece que realmente capricharam.
Transformei em imagem todo o texto do conteúdo de apresentação.
Dá para ver o texto inteiro rolando pelas imagens.
A caligrafia no meio ficou impressionante

GN⁺ 2026-04-22

Opiniões no Hacker News

Testei o novo modelo assim. Com gpt-image-2, gerei uma "imagem no estilo Where's Waldo procurando um guaxinim com um rádio amador", e o código está aqui. O resultado é esta imagem, mas, sinceramente, nem eu tenho certeza se o guaxinim está mesmo segurando um rádio amador. Esse tipo de teste no estilo Where's Waldo nunca me dá muita paciência para procurar até o fim
- Rodei de novo com o comando usando a resolução máxima e obtive um resultado bem melhor. Segui o tamanho recomendado no cookbook da OpenAI (link), e o resultado está aqui. Dessa vez encontrei o raccoon, e parece que cada imagem saiu por cerca de 40 centavos de dólar
- Sou grato pela imagem, mas os rostos das pessoas estão tão bizarros que parecem coisa de pesadelo
- Acho que esse prompt é uma tarefa brutalmente difícil para os modelos da família diffusion no estado atual. Então, por esse lado, a própria tentativa já parece impressionante
- Quando li "não tenho paciência para procurar até o fim", senti que isso daria para virar um novo benchmark de IA
- Esse tipo de tarefa me parece uma área em que a IA continuará fraca em detalhes estruturais. De longe parece convincente, mas de perto há erros demais: rostos que parecem estar gritando, placas apontando para os dois lados ao mesmo tempo, tendas de emergência que não existem, cachorros com aparência monstruosa. As amostras promocionais são parecidas, e exemplos como anatomia ou tabela periódica também desmoronam quando você olha de perto. No fim, fico cético se estamos só usando quantidades enormes de RAM & GPUs, água e eletricidade para fazer um Where's Waldo pior
Enquanto experimentava o Nano Banana Pro, criei um prompt muito divertido para testar a capacidade de seguir regras dos modelos de imagem. Era algo como: "coloque os Pokémon cujos números na National Pokédex correspondem aos primeiros 64 números primos em uma grade 8x8, desenhando-os em estilos 8-bit, charcoal e Ukiyo-e de acordo com o número de dígitos". O resultado do NBP está aqui, e os números, os Pokémon e os estilos estavam em geral corretos, embora haja discussão de que a aplicação de estilo foi preguiçosa e a imagem possa parecer plágio. O resultado do mesmo prompt em gpt-2-image high está aqui: ele produziu um estilo mais criativo e com mais cara de original, mas aplicou a lógica de estilo por linha, não com base nos números; errou alguns Pokémon, errou a fonte e a parte de baixo nem estava quadrada. Foi um resultado bem curioso
- Achei esse teste realmente excelente e, ao mesmo tempo, achei meio engraçado que o gpt-2-image seja tão ruim assim. Cheguei a pensar que uma imagem plagiarized que parece simplesmente buscada e colada seria melhor. Pelo menos não parece haver nem uma checagem básica de sanity check nem uma etapa de pós-processamento para verificar se "seguiu as instruções direito", e as violações da restrição de estilo por número de dígitos teriam sido fáceis de detectar. Além disso, é caro, então decepciona ainda mais se o resultado é praticamente inutilizável
- Fiquei mais curioso para saber por que esse prompt é visto como um bom prompt
Organizei os custos assim: ao gerar uma imagem 4096x4096 com gemini-3.1-flash-image-preview, dá 2.520 tokens, cerca de US$ 0,151 por imagem; já uma imagem 3840x2160 com gpt-image-2 dá 13.342 tokens, cerca de US$ 0,4. Então esse modelo é mais de 2x mais caro que o Gemini
- Acho que essa comparação é apples to oranges. É como comparar a versão flash com a versão completa, e em detalhes finos esta aqui me parece subjetivamente algo como 5x melhor que a flash
Tenho um hard prompt que sempre uso para testar modelos de geração de imagem. É uma combinação de condições como mãos de um relojoeiro idoso, relógio de bolso vintage, água rasa, refração e caustics, gotas caindo, rosto distorcido refletido na superfície de vidro, lente macro de 100mm. As imagens resultantes foram colocadas no Google Drive, e rodei várias vezes tanto na web quanto na API, mas no geral não ficou tão bom quanto o Nano Banana
- Fiquei curioso para saber por que isso é considerado um bom prompt
- Tentei ver as imagens compartilhadas, mas parece que o host aplicou rate limit, então quis avisar
- Confirmei que os links parecem quebrados
Achei que o gpt-image-1.5 da OpenAI e o NB2 do Google ficaram bem parelhos no meu site de comparação. Em avaliações focadas em aderência ao prompt, ambos mostraram taxa de sucesso de cerca de 70% em geração e edição, e em qualidade visual o Gemini sempre esteve um nível acima. Ainda assim, o gpt-image-1.5 foi um grande salto para a OpenAI e eliminou muitos problemas antigos, como o famigerado "piss filter". Os gráficos comparativos podem ser vistos para edição aqui e para geração aqui. Na atualização mais recente, o gpt-image-2 passou pelo eneagrama de 9 pontas, o chamado model killer do conjunto de testes, e acertou 12 de 15 no benchmark de texto-para-imagem, superando o melhor modelo anterior por 1 ponto. Ainda assim, continuou falhando em prompts como a coral snake com ordem de cores estrita, um D20 com os primeiros 20 números primos escritos nas faces e um planeta em formato de Terra plana com pessoas transbordando pelas bordas. A comparação completa está em All Models, e a dos principais modelos está aqui
Organizei uma comparação de preços. O GPT Image 2 custa, no nível Low, US$ 0,006 para 1024x1024 e US$ 0,005 para 1024x1536 e 1536x1024; no Medium, respectivamente US$ 0,053, US$ 0,041 e US$ 0,041; no High, US$ 0,211, US$ 0,165 e US$ 0,165. Já o GPT Image 1 custava, no Low, US$ 0,011, US$ 0,016 e US$ 0,016; no Medium, US$ 0,042, US$ 0,063 e US$ 0,063; no High, US$ 0,167, US$ 0,25 e US$ 0,25
- Achei meio estranho essa limitação tão grande de resolução. Fico me perguntando se, ao gerar maior, o detalhe desmorona quando amplia, ou se simplesmente o custo dispara demais
- Achei interessante que na v2 saídas grandes sejam mais caras que o quadrado pequeno, enquanto na v1 era o contrário. Fiquei curioso sobre o motivo dessa estrutura de preços
Confirmei que desta vez ele passou no teste das teclas de piano. Um caso de sucesso está aqui, embora a rotulagem do dó central tenha saído errada nesta tentativa. Mesmo assim, ao pedir de novo, ele corrigiu
- Quando o NB 2 saiu, aumentei ainda mais a dificuldade desse teste. Inverti as cores de todos os accidentals e naturals, e mesmo assim ele acertou perfeitamente; há exemplos aqui
Achei a melhora na renderização de texto em chinês realmente nítida e impressionante. Ainda assim, a imagem de exemplo de Wuxi continuava com erros de digitação; por exemplo, o caractere 笼 em 小笼包 foi escrito de forma incorreta. Na seção "极小中文也清晰可读" também havia mais erros, mas nada que impedisse muito a leitura. Ainda assim, ficou claramente muito melhor do que os modelos anteriores de geração de imagem
- Fiquei curioso se isso é melhor até do que modelos chineses feitos na própria China. Como eles provavelmente têm muito mais exemplos em chinês nos dados de treino, imagino que normalmente deem mais foco a esse ponto
Acho que este é um bom momento para mencionar o C2PA. É um padrão para provar ativamente a procedência de imagens, e a OpenAI também participa. Se eu coloco uma imagem que gerei com IA no C2PA Viewer, a origem aparece como ChatGPT. Claro que usuários maliciosos podem apagar os metadados e fazer a imagem parecer comum, mas no longo prazo acho que imagens sem indicação de procedência deveriam ser tratadas como um sinal de risco, como um non-https. Mais detalhes em c2pa.org
- Acho difícil ver isso apenas como ação de bad actors. A maioria das plataformas, como Instagram e Facebook, remove metadados por padrão por questões de privacidade, e o EXIF pode conter localização, nome do arquivo, horário de criação e informações do dispositivo. Então, hoje, mais do que manipulação maliciosa, o problema prático maior para preservar C2PA parece ser a própria estrutura em que a maioria dos sites remove metadados ao fazer upload de imagens
- Queria acrescentar que a OpenAI já anexava C2PA manifests às imagens geradas desde o começo. E, no meu pequeno critério de avaliação, detectores modernos de imagem de IA baseados em ML, como o OmniAID, conseguiram identificar muito bem imagens geradas por GPT-Image-2. O artigo relacionado está aqui, e eu mesmo criei um detector de imagens de IA on-device combinando essas duas coisas
Usei esse modelo por algumas horas e, sinceramente, achei bem impressionante. Foi a primeira vez que senti que um modelo de imagem realmente ajudou no meu trabalho de verdade, especialmente para fazer slides de PowerPoint e mockups