Lançado o ChatGPT Images 2.0
(openai.com)- A OpenAI revelou a próxima geração do modelo de geração de imagens e fez a própria apresentação sem escrever o texto no post, usando apenas texto inserido em imagens geradas com o Images 2.0
- O foco está em gerar resultados prontos para uso, incluindo tarefas visuais complexas e renderização precisa de texto
- É o primeiro modelo de imagem com capacidade de thinking; ele pode fazer busca na web, gerar várias imagens ao mesmo tempo e verificar a própria saída
- O desempenho de renderização de caracteres não latinos melhorou bastante, incluindo japonês, coreano, chinês, híndi e bengali, tornando-o prático para criação de designs multilíngues
- Com suporte flexível a proporções de 3:1 a 1:3, atende de imediato a diversos formatos, como banners, pôsteres e telas mobile
- Propõe uma transição de uma ferramenta de renderização para um sistema de design estratégico e pode ser usado em todo o ecossistema ChatGPT, Codex e API
Uma nova era da geração de imagens
- Define a imagem não como simples decoração, mas como uma linguagem, capaz de explicar mecanismos, criar atmosferas, validar ideias e transmitir argumentos
- Depois de o ChatGPT Images lançado há um ano provar que imagens de IA podiam ser belas e úteis, o Images 2.0 surge como um modelo de próxima geração que lida com trabalhos visuais complexos com precisão
- Houve um salto em fidelidade às instruções detalhadas, posicionamento preciso de objetos e relações entre eles, além de renderização de texto denso
- A composição e a sensibilidade visual são fortes o suficiente para que o resultado pareça um design intencional, e não algo gerado por IA
- Funciona com precisão em vários idiomas e, com conhecimento visual e de mundo ampliado, permite gerar imagens mais inteligentes com menos prompt
- O modelo combina a inteligência dos modelos de raciocínio da OpenAI com a compreensão do mundo visual, transformando a geração de imagens de simples renderização em design estratégico, e de ferramenta em sistema visual
- Disponível a partir de hoje para usuários de ChatGPT, Codex e API
Mais precisão e controle
- O Images 2.0 oferece um nível sem precedentes de especificidade e fidelidade na geração de imagens
- Ele não apenas concebe imagens mais sofisticadas, como também as implementa de forma eficaz, com destaque para aderência às instruções, preservação dos detalhes pedidos e renderização de elementos minuciosos
- Lida, em até 2K de resolução, com texto pequeno, ícones, elementos de UI, composições densas e restrições sutis de estilo, áreas em que modelos anteriores tinham dificuldade
- Gera resultados realmente prontos para uso, e não apenas “uma imagem mais ou menos parecida”
Suporte aprimorado a texto multilíngue
- Modelos anteriores mostravam desempenho consistente em inglês e em idiomas com alfabeto latino, mas eram limitados no tratamento de caracteres não latinos em textos complexos ou densos
- O Images 2.0 traz melhor compreensão multilíngue e, em especial, um grande avanço na renderização de texto não latino em japonês, coreano, chinês, híndi e bengali
- Além de renderizar corretamente textos não ingleses, ele também pode gerar resultados com fluidez linguística natural
- Vai além da simples tradução de rótulos, mantendo consistência visual em pôsteres, materiais explicativos, diagramas e quadrinhos em que a língua faz parte do design
- Isso amplia o uso global, já que os usuários podem criar visuais no idioma que realmente usam
Refinamento de estilo e realismo
- O Images 2.0 melhorou bastante a fidelidade em diversos estilos visuais
- Há mais consistência na textura, iluminação, composição e detalhes de linguagens visuais distintas, como elementos característicos de fotografia (incluindo pequenas imperfeições que aumentam o realismo), stills de filmes, pixel art e quadrinhos
- Em vez de apenas aproximar o estilo pedido, ele gera resultados que o refletem com fidelidade
- É especialmente útil para prototipagem de jogos, storyboard, criativos de marketing e produção de assets de mídias ou gêneros específicos
Suporte flexível a proporções
- Suporte amplo a proporções de 3:1 (horizontal) a 1:3 (vertical)
- Gera imediatamente resultados no formato necessário para banners wide, slides de apresentação, pôsteres, telas mobile, marcadores e gráficos para redes sociais
- É possível definir a proporção desejada no prompt ou recriar em um novo tamanho escolhendo entre opções predefinidas
Inteligência do mundo real
- O Images 2.0 incorpora uma compreensão de mundo mais atualizada na geração de imagens, com o corte de conhecimento atualizado para dezembro de 2025
- Isso o favorece em materiais como explicações visuais, mapas, gráficos educacionais e resumos visuais, em que precisão e clareza são tão importantes quanto a estética
- Com inteligência aprimorada, ele pode executar fluxos de ponta a ponta, da síntese de informações à redação de copy e à visualização
- Também demonstra senso de design limpo e organizado, considerando espaçamento, legibilidade e fluxo
Um parceiro de pensamento visual
- Ao selecionar o modelo thinking ou pro, o modelo investe mais tempo para entender e executar a tarefa de forma agentic
- Ele pode buscar informações relevantes na web, converter materiais enviados em explicações visuais claras e inferir a estrutura da imagem antes de gerá-la
- Nesse modo, o Images 2.0 funciona como um parceiro de pensamento visual, reduzindo bastante o trabalho do usuário do rascunho conceitual ao asset final
- No modo thinking, é possível gerar várias imagens diferentes ao mesmo tempo — um recurso inédito na geração de imagens do ChatGPT
- Compatível com fluxos como séries de páginas de quadrinhos, direções de redesign de uma casa inteira, famílias de conceitos de pôsteres e conjuntos de gráficos para redes sociais em várias proporções e idiomas
- Em vez de fazer prompts imagem por imagem e combinar tudo manualmente, é possível pedir de uma vez até 10 resultados consistentes com continuidade de personagens e objetos
- Cada resultado é construído sequencialmente com base no anterior
4 comentários
A imagem agora tem raciocínio embutido, e o resultado ficou absurdo.
Eu só joguei algumas palavras-chave relacionadas a um novo negócio,
mas ele inferiu até a mensagem central e os pain points, e incorporou tudo isso na landing page.
E, como base, ele ainda pega exatamente as cores da marca, o tom de voz da marca e até os modelos do site que eu tinha indicado como referência.
Vendo que nem o coreano quebrou, parece que as possibilidades de uso daqui para frente vão ser enormes..
Agora o avanço da IA está começando a ficar cada vez mais assustador.
Incrível mesmo. Já fiquei impressionado quando o Nano Banana saiu, mas agora ficou ainda melhor. Parece que, quando há concorrência, a evolução acontece mais rápido.
Oh... o tratamento de texto era nível Nano Banana, mas desta vez parece que realmente capricharam.
Transformei em imagem todo o texto do conteúdo de apresentação.
Dá para ver o texto inteiro rolando pelas imagens.
A caligrafia no meio ficou impressionante
Opiniões no Hacker News
gpt-image-2, gerei uma "imagem no estilo Where's Waldo procurando um guaxinim com um rádio amador", e o código está aqui. O resultado é esta imagem, mas, sinceramente, nem eu tenho certeza se o guaxinim está mesmo segurando um rádio amador. Esse tipo de teste no estilo Where's Waldo nunca me dá muita paciência para procurar até o fimgemini-3.1-flash-image-preview, dá 2.520 tokens, cerca de US$ 0,151 por imagem; já uma imagem 3840x2160 comgpt-image-2dá 13.342 tokens, cerca de US$ 0,4. Então esse modelo é mais de 2x mais caro que o Geminigpt-image-1.5da OpenAI e o NB2 do Google ficaram bem parelhos no meu site de comparação. Em avaliações focadas em aderência ao prompt, ambos mostraram taxa de sucesso de cerca de 70% em geração e edição, e em qualidade visual o Gemini sempre esteve um nível acima. Ainda assim, ogpt-image-1.5foi um grande salto para a OpenAI e eliminou muitos problemas antigos, como o famigerado "piss filter". Os gráficos comparativos podem ser vistos para edição aqui e para geração aqui. Na atualização mais recente, ogpt-image-2passou pelo eneagrama de 9 pontas, o chamado model killer do conjunto de testes, e acertou 12 de 15 no benchmark de texto-para-imagem, superando o melhor modelo anterior por 1 ponto. Ainda assim, continuou falhando em prompts como a coral snake com ordem de cores estrita, um D20 com os primeiros 20 números primos escritos nas faces e um planeta em formato de Terra plana com pessoas transbordando pelas bordas. A comparação completa está em All Models, e a dos principais modelos está aquiGPT-Image-2. O artigo relacionado está aqui, e eu mesmo criei um detector de imagens de IA on-device combinando essas duas coisas