Lançado o ChatGPT Images 2.0

(openai.com)

5 pontos por GN⁺ 8 일 전 | 4 comentários | Compartilhar no WhatsApp

A OpenAI revelou a nova geração do seu modelo de geração de imagens e fez a própria apresentação sem escrever o texto no post, usando apenas texto inserido em imagens geradas com o Images 2.0
O foco está na criação de resultados prontos para uso, incluindo tarefas visuais complexas e renderização precisa de texto
É o primeiro modelo de imagem com capacidade de raciocínio (thinking), capaz de fazer buscas na web, gerar múltiplas imagens ao mesmo tempo e verificar a própria saída
O desempenho de renderização de caracteres não latinos melhorou muito, incluindo japonês, coreano, chinês, hindi e bengali, tornando-o prático para a criação de designs multilíngues
Com suporte flexível a proporções de aspecto de 3:1 a 1:3, atende imediatamente a vários formatos, como banners, pôsteres e telas mobile
A proposta é uma transição de ferramenta de renderização para sistema de design estratégico, com disponibilidade em todo o ChatGPT, Codex e API

Uma nova era da geração de imagens

Imagens são definidas não como simples decoração, mas como uma linguagem, capaz de explicar mecanismos, criar atmosfera, validar ideias e transmitir argumentos
Depois de o ChatGPT Images lançado há um ano provar que imagens de IA podem ser bonitas e úteis, o Images 2.0 surge como um modelo de próxima geração que lida com tarefas visuais complexas com precisão
Houve um salto na fidelidade às instruções detalhadas, no posicionamento exato de objetos e relações, e na renderização de texto denso
A composição e a sensibilidade visual são tão boas que o resultado parece design intencional, e não algo gerado por IA
Funciona com precisão em vários idiomas e, com conhecimento visual e de mundo ampliado, permite gerar imagens mais inteligentes com menos prompt
O modelo combina a inteligência dos modelos de raciocínio da OpenAI e a compreensão visual do mundo, transformando a geração de imagens de simples renderização em design estratégico, de ferramenta em sistema visual
Disponível a partir de hoje para todos os usuários do ChatGPT, Codex e API

Mais precisão e controle

O Images 2.0 oferece um nível sem precedentes de especificidade e fidelidade na geração de imagens
Ele não apenas concebe imagens mais sofisticadas, como também as executa de forma eficaz, com força em seguir instruções, preservar detalhes pedidos e renderizar elementos sutis
Processa texto pequeno, ícones, elementos de UI, composições densas e restrições sutis de estilo — pontos em que modelos anteriores tinham dificuldade — em até resolução 2K
Em vez de uma imagem mais ou menos parecida, gera resultados realmente prontos para uso imediato

Suporte aprimorado a texto multilíngue

Modelos anteriores mostravam desempenho consistente em inglês e em idiomas com alfabeto latino, mas tinham limitações com caracteres não latinos em textos complexos ou densos
O Images 2.0 melhora a compreensão multilíngue e, em especial, a renderização de texto não latino em japonês, coreano, chinês, hindi e bengali
Além de renderizar corretamente textos não ingleses, ele pode gerar resultados linguisticamente naturais
Vai além da simples tradução de rótulos e mantém consistência visual em pôsteres, materiais explicativos, diagramas e quadrinhos em que a língua faz parte do design
Isso amplia a utilidade global ao permitir que usuários criem visuais no idioma que realmente usam

Sofisticação de estilo e realismo

O Images 2.0 melhorou bastante a fidelidade em diversos estilos visuais
Há ganhos de consistência em textura, iluminação, composição e detalhes de linguagens visuais distintas, como características fotográficas (incluindo pequenas imperfeições que aumentam o realismo), stills de filme, pixel art e quadrinhos
Em vez de apenas se aproximar do estilo pedido, ele gera resultados que o reproduzem com fidelidade
É especialmente útil para prototipagem de jogos, storyboards, criativos de marketing e produção de assets de uma mídia ou gênero específico

Suporte flexível a proporções de aspecto

Suporta uma ampla faixa de proporções, de 3:1 (horizontal) a 1:3 (vertical)
Gera imediatamente resultados no formato necessário para banners largos, slides de apresentação, pôsteres, telas mobile, marcadores e gráficos para redes sociais
É possível definir a proporção desejada no prompt ou selecionar em opções predefinidas para regenerar em um novo tamanho

Inteligência do mundo real

O Images 2.0 reflete uma compreensão de mundo mais atualizada na geração de imagens, com corte de conhecimento atualizado para dezembro de 2025
Isso favorece materiais explicativos, mapas, gráficos educacionais e resumos visuais em que precisão e clareza são tão importantes quanto a estética
Com inteligência aprimorada, ele pode executar fluxos de trabalho de ponta a ponta, da síntese de informações à redação e visualização
- Também demonstra noção de design limpa e organizada, considerando espaço em branco, legibilidade e fluxo

Um parceiro de pensamento visual

Ao selecionar o modelo thinking ou pro, o modelo dedica mais tempo para entender e executar a tarefa de forma agêntica
Ele pode buscar informações relevantes na web, transformar materiais enviados em explicações visuais claras e raciocinar sobre a estrutura da imagem antes de gerá-la
Nesse modo, o Images 2.0 funciona como um parceiro de pensamento visual, reduzindo bastante o trabalho do usuário do conceito inicial ao asset final
No modo thinking, é possível gerar várias imagens diferentes ao mesmo tempo — um recurso inédito na geração de imagens do ChatGPT
- Isso viabiliza fluxos de trabalho como séries de páginas de quadrinhos, direções de redesign de uma casa inteira, famílias de conceito para pôsteres e conjuntos de gráficos sociais em diferentes proporções e idiomas
Em vez de criar prompts e combinar imagens manualmente uma por uma, é possível pedir até 10 resultados consistentes com continuidade de personagens e objetos de uma só vez
- Cada resultado é construído sequencialmente com base no anterior

4 comentários

j2sus91 8 일 전

A imagem agora tem raciocínio embutido, e o resultado ficou absurdo.

Eu só joguei algumas palavras-chave relacionadas a um novo negócio,
mas ele inferiu até a mensagem central e os pain points, e incorporou tudo isso na landing page.

E, como base, ele ainda pega exatamente as cores da marca, o tom de voz da marca e até os modelos do site que eu tinha indicado como referência.
Vendo que nem o coreano quebrou, parece que as possibilidades de uso daqui para frente vão ser enormes..

Agora o avanço da IA está começando a ficar cada vez mais assustador.

kirinonakar 8 일 전

Incrível mesmo. Já fiquei impressionado quando o Nano Banana saiu, mas agora ficou ainda melhor. Parece que, quando há concorrência, a evolução acontece mais rápido.

xguru 8 일 전

Oh... o tratamento de texto era nível Nano Banana, mas desta vez parece que realmente capricharam.
Transformei em imagem todo o texto do conteúdo de apresentação.
Dá para ver o texto inteiro rolando pelas imagens.
A caligrafia no meio ficou impressionante

GN⁺ 8 일 전

Opiniões no Hacker News

Testei o novo modelo assim. Com gpt-image-2, gerei uma "imagem no estilo Where's Waldo procurando um guaxinim com um rádio amador", e o código está aqui. O resultado é esta imagem, mas, sinceramente, nem eu tenho certeza se o guaxinim está mesmo segurando um rádio amador. Esse tipo de teste no estilo Where's Waldo nunca me dá muita paciência para procurar até o fim
- Rodei de novo com o comando usando a resolução máxima e obtive um resultado bem melhor. Segui o tamanho recomendado no cookbook da OpenAI (link), e o resultado está aqui. Dessa vez encontrei o raccoon, e parece que cada imagem saiu por cerca de 40 centavos de dólar
- Sou grato pela imagem, mas os rostos das pessoas estão tão bizarros que parecem coisa de pesadelo
- Acho que esse prompt é uma tarefa brutalmente difícil para os modelos da família diffusion no estado atual. Então, por esse lado, a própria tentativa já parece impressionante
- Quando li "não tenho paciência para procurar até o fim", senti que isso daria para virar um novo benchmark de IA
- Esse tipo de tarefa me parece uma área em que a IA continuará fraca em detalhes estruturais. De longe parece convincente, mas de perto há erros demais: rostos que parecem estar gritando, placas apontando para os dois lados ao mesmo tempo, tendas de emergência que não existem, cachorros com aparência monstruosa. As amostras promocionais são parecidas, e exemplos como anatomia ou tabela periódica também desmoronam quando você olha de perto. No fim, fico cético se estamos só usando quantidades enormes de RAM & GPUs, água e eletricidade para fazer um Where's Waldo pior
Enquanto experimentava o Nano Banana Pro, criei um prompt muito divertido para testar a capacidade de seguir regras dos modelos de imagem. Era algo como: "coloque os Pokémon cujos números na National Pokédex correspondem aos primeiros 64 números primos em uma grade 8x8, desenhando-os em estilos 8-bit, charcoal e Ukiyo-e de acordo com o número de dígitos". O resultado do NBP está aqui, e os números, os Pokémon e os estilos estavam em geral corretos, embora haja discussão de que a aplicação de estilo foi preguiçosa e a imagem possa parecer plágio. O resultado do mesmo prompt em gpt-2-image high está aqui: ele produziu um estilo mais criativo e com mais cara de original, mas aplicou a lógica de estilo por linha, não com base nos números; errou alguns Pokémon, errou a fonte e a parte de baixo nem estava quadrada. Foi um resultado bem curioso
- Achei esse teste realmente excelente e, ao mesmo tempo, achei meio engraçado que o gpt-2-image seja tão ruim assim. Cheguei a pensar que uma imagem plagiarized que parece simplesmente buscada e colada seria melhor. Pelo menos não parece haver nem uma checagem básica de sanity check nem uma etapa de pós-processamento para verificar se "seguiu as instruções direito", e as violações da restrição de estilo por número de dígitos teriam sido fáceis de detectar. Além disso, é caro, então decepciona ainda mais se o resultado é praticamente inutilizável
- Fiquei mais curioso para saber por que esse prompt é visto como um bom prompt
Organizei os custos assim: ao gerar uma imagem 4096x4096 com gemini-3.1-flash-image-preview, dá 2.520 tokens, cerca de US$ 0,151 por imagem; já uma imagem 3840x2160 com gpt-image-2 dá 13.342 tokens, cerca de US$ 0,4. Então esse modelo é mais de 2x mais caro que o Gemini
- Acho que essa comparação é apples to oranges. É como comparar a versão flash com a versão completa, e em detalhes finos esta aqui me parece subjetivamente algo como 5x melhor que a flash
Tenho um hard prompt que sempre uso para testar modelos de geração de imagem. É uma combinação de condições como mãos de um relojoeiro idoso, relógio de bolso vintage, água rasa, refração e caustics, gotas caindo, rosto distorcido refletido na superfície de vidro, lente macro de 100mm. As imagens resultantes foram colocadas no Google Drive, e rodei várias vezes tanto na web quanto na API, mas no geral não ficou tão bom quanto o Nano Banana
- Fiquei curioso para saber por que isso é considerado um bom prompt
- Tentei ver as imagens compartilhadas, mas parece que o host aplicou rate limit, então quis avisar
- Confirmei que os links parecem quebrados
Achei que o gpt-image-1.5 da OpenAI e o NB2 do Google ficaram bem parelhos no meu site de comparação. Em avaliações focadas em aderência ao prompt, ambos mostraram taxa de sucesso de cerca de 70% em geração e edição, e em qualidade visual o Gemini sempre esteve um nível acima. Ainda assim, o gpt-image-1.5 foi um grande salto para a OpenAI e eliminou muitos problemas antigos, como o famigerado "piss filter". Os gráficos comparativos podem ser vistos para edição aqui e para geração aqui. Na atualização mais recente, o gpt-image-2 passou pelo eneagrama de 9 pontas, o chamado model killer do conjunto de testes, e acertou 12 de 15 no benchmark de texto-para-imagem, superando o melhor modelo anterior por 1 ponto. Ainda assim, continuou falhando em prompts como a coral snake com ordem de cores estrita, um D20 com os primeiros 20 números primos escritos nas faces e um planeta em formato de Terra plana com pessoas transbordando pelas bordas. A comparação completa está em All Models, e a dos principais modelos está aqui
Organizei uma comparação de preços. O GPT Image 2 custa, no nível Low, US$ 0,006 para 1024x1024 e US$ 0,005 para 1024x1536 e 1536x1024; no Medium, respectivamente US$ 0,053, US$ 0,041 e US$ 0,041; no High, US$ 0,211, US$ 0,165 e US$ 0,165. Já o GPT Image 1 custava, no Low, US$ 0,011, US$ 0,016 e US$ 0,016; no Medium, US$ 0,042, US$ 0,063 e US$ 0,063; no High, US$ 0,167, US$ 0,25 e US$ 0,25
- Achei meio estranho essa limitação tão grande de resolução. Fico me perguntando se, ao gerar maior, o detalhe desmorona quando amplia, ou se simplesmente o custo dispara demais
- Achei interessante que na v2 saídas grandes sejam mais caras que o quadrado pequeno, enquanto na v1 era o contrário. Fiquei curioso sobre o motivo dessa estrutura de preços
Confirmei que desta vez ele passou no teste das teclas de piano. Um caso de sucesso está aqui, embora a rotulagem do dó central tenha saído errada nesta tentativa. Mesmo assim, ao pedir de novo, ele corrigiu
- Quando o NB 2 saiu, aumentei ainda mais a dificuldade desse teste. Inverti as cores de todos os accidentals e naturals, e mesmo assim ele acertou perfeitamente; há exemplos aqui
Achei a melhora na renderização de texto em chinês realmente nítida e impressionante. Ainda assim, a imagem de exemplo de Wuxi continuava com erros de digitação; por exemplo, o caractere 笼 em 小笼包 foi escrito de forma incorreta. Na seção "极小中文也清晰可读" também havia mais erros, mas nada que impedisse muito a leitura. Ainda assim, ficou claramente muito melhor do que os modelos anteriores de geração de imagem
- Fiquei curioso se isso é melhor até do que modelos chineses feitos na própria China. Como eles provavelmente têm muito mais exemplos em chinês nos dados de treino, imagino que normalmente deem mais foco a esse ponto
Acho que este é um bom momento para mencionar o C2PA. É um padrão para provar ativamente a procedência de imagens, e a OpenAI também participa. Se eu coloco uma imagem que gerei com IA no C2PA Viewer, a origem aparece como ChatGPT. Claro que usuários maliciosos podem apagar os metadados e fazer a imagem parecer comum, mas no longo prazo acho que imagens sem indicação de procedência deveriam ser tratadas como um sinal de risco, como um non-https. Mais detalhes em c2pa.org
- Acho difícil ver isso apenas como ação de bad actors. A maioria das plataformas, como Instagram e Facebook, remove metadados por padrão por questões de privacidade, e o EXIF pode conter localização, nome do arquivo, horário de criação e informações do dispositivo. Então, hoje, mais do que manipulação maliciosa, o problema prático maior para preservar C2PA parece ser a própria estrutura em que a maioria dos sites remove metadados ao fazer upload de imagens
- Queria acrescentar que a OpenAI já anexava C2PA manifests às imagens geradas desde o começo. E, no meu pequeno critério de avaliação, detectores modernos de imagem de IA baseados em ML, como o OmniAID, conseguiram identificar muito bem imagens geradas por GPT-Image-2. O artigo relacionado está aqui, e eu mesmo criei um detector de imagens de IA on-device combinando essas duas coisas
Usei esse modelo por algumas horas e, sinceramente, achei bem impressionante. Foi a primeira vez que senti que um modelo de imagem realmente ajudou no meu trabalho de verdade, especialmente para fazer slides de PowerPoint e mockups