Lançado o ChatGPT Images 2.0
(openai.com)- A OpenAI revelou a nova geração do seu modelo de geração de imagens e fez a própria apresentação sem escrever o texto no post, usando apenas texto inserido em imagens geradas com o Images 2.0
- O foco está na criação de resultados prontos para uso, incluindo tarefas visuais complexas e renderização precisa de texto
- É o primeiro modelo de imagem com capacidade de raciocínio (thinking), capaz de fazer buscas na web, gerar múltiplas imagens ao mesmo tempo e verificar a própria saída
- O desempenho de renderização de caracteres não latinos melhorou muito, incluindo japonês, coreano, chinês, hindi e bengali, tornando-o prático para a criação de designs multilíngues
- Com suporte flexível a proporções de aspecto de 3:1 a 1:3, atende imediatamente a vários formatos, como banners, pôsteres e telas mobile
- A proposta é uma transição de ferramenta de renderização para sistema de design estratégico, com disponibilidade em todo o ChatGPT, Codex e API
Uma nova era da geração de imagens
- Imagens são definidas não como simples decoração, mas como uma linguagem, capaz de explicar mecanismos, criar atmosfera, validar ideias e transmitir argumentos
- Depois de o ChatGPT Images lançado há um ano provar que imagens de IA podem ser bonitas e úteis, o Images 2.0 surge como um modelo de próxima geração que lida com tarefas visuais complexas com precisão
- Houve um salto na fidelidade às instruções detalhadas, no posicionamento exato de objetos e relações, e na renderização de texto denso
- A composição e a sensibilidade visual são tão boas que o resultado parece design intencional, e não algo gerado por IA
- Funciona com precisão em vários idiomas e, com conhecimento visual e de mundo ampliado, permite gerar imagens mais inteligentes com menos prompt
- O modelo combina a inteligência dos modelos de raciocínio da OpenAI e a compreensão visual do mundo, transformando a geração de imagens de simples renderização em design estratégico, de ferramenta em sistema visual
- Disponível a partir de hoje para todos os usuários do ChatGPT, Codex e API
Mais precisão e controle
- O Images 2.0 oferece um nível sem precedentes de especificidade e fidelidade na geração de imagens
- Ele não apenas concebe imagens mais sofisticadas, como também as executa de forma eficaz, com força em seguir instruções, preservar detalhes pedidos e renderizar elementos sutis
- Processa texto pequeno, ícones, elementos de UI, composições densas e restrições sutis de estilo — pontos em que modelos anteriores tinham dificuldade — em até resolução 2K
- Em vez de uma imagem mais ou menos parecida, gera resultados realmente prontos para uso imediato
Suporte aprimorado a texto multilíngue
- Modelos anteriores mostravam desempenho consistente em inglês e em idiomas com alfabeto latino, mas tinham limitações com caracteres não latinos em textos complexos ou densos
- O Images 2.0 melhora a compreensão multilíngue e, em especial, a renderização de texto não latino em japonês, coreano, chinês, hindi e bengali
- Além de renderizar corretamente textos não ingleses, ele pode gerar resultados linguisticamente naturais
- Vai além da simples tradução de rótulos e mantém consistência visual em pôsteres, materiais explicativos, diagramas e quadrinhos em que a língua faz parte do design
- Isso amplia a utilidade global ao permitir que usuários criem visuais no idioma que realmente usam
Sofisticação de estilo e realismo
- O Images 2.0 melhorou bastante a fidelidade em diversos estilos visuais
- Há ganhos de consistência em textura, iluminação, composição e detalhes de linguagens visuais distintas, como características fotográficas (incluindo pequenas imperfeições que aumentam o realismo), stills de filme, pixel art e quadrinhos
- Em vez de apenas se aproximar do estilo pedido, ele gera resultados que o reproduzem com fidelidade
- É especialmente útil para prototipagem de jogos, storyboards, criativos de marketing e produção de assets de uma mídia ou gênero específico
Suporte flexível a proporções de aspecto
- Suporta uma ampla faixa de proporções, de 3:1 (horizontal) a 1:3 (vertical)
- Gera imediatamente resultados no formato necessário para banners largos, slides de apresentação, pôsteres, telas mobile, marcadores e gráficos para redes sociais
- É possível definir a proporção desejada no prompt ou selecionar em opções predefinidas para regenerar em um novo tamanho
Inteligência do mundo real
- O Images 2.0 reflete uma compreensão de mundo mais atualizada na geração de imagens, com corte de conhecimento atualizado para dezembro de 2025
- Isso favorece materiais explicativos, mapas, gráficos educacionais e resumos visuais em que precisão e clareza são tão importantes quanto a estética
- Com inteligência aprimorada, ele pode executar fluxos de trabalho de ponta a ponta, da síntese de informações à redação e visualização
- Também demonstra noção de design limpa e organizada, considerando espaço em branco, legibilidade e fluxo
Um parceiro de pensamento visual
- Ao selecionar o modelo thinking ou pro, o modelo dedica mais tempo para entender e executar a tarefa de forma agêntica
- Ele pode buscar informações relevantes na web, transformar materiais enviados em explicações visuais claras e raciocinar sobre a estrutura da imagem antes de gerá-la
- Nesse modo, o Images 2.0 funciona como um parceiro de pensamento visual, reduzindo bastante o trabalho do usuário do conceito inicial ao asset final
- No modo thinking, é possível gerar várias imagens diferentes ao mesmo tempo — um recurso inédito na geração de imagens do ChatGPT
- Isso viabiliza fluxos de trabalho como séries de páginas de quadrinhos, direções de redesign de uma casa inteira, famílias de conceito para pôsteres e conjuntos de gráficos sociais em diferentes proporções e idiomas
- Em vez de criar prompts e combinar imagens manualmente uma por uma, é possível pedir até 10 resultados consistentes com continuidade de personagens e objetos de uma só vez
- Cada resultado é construído sequencialmente com base no anterior
4 comentários
A imagem agora tem raciocínio embutido, e o resultado ficou absurdo.
Eu só joguei algumas palavras-chave relacionadas a um novo negócio,
mas ele inferiu até a mensagem central e os pain points, e incorporou tudo isso na landing page.
E, como base, ele ainda pega exatamente as cores da marca, o tom de voz da marca e até os modelos do site que eu tinha indicado como referência.
Vendo que nem o coreano quebrou, parece que as possibilidades de uso daqui para frente vão ser enormes..
Agora o avanço da IA está começando a ficar cada vez mais assustador.
Incrível mesmo. Já fiquei impressionado quando o Nano Banana saiu, mas agora ficou ainda melhor. Parece que, quando há concorrência, a evolução acontece mais rápido.
Oh... o tratamento de texto era nível Nano Banana, mas desta vez parece que realmente capricharam.
Transformei em imagem todo o texto do conteúdo de apresentação.
Dá para ver o texto inteiro rolando pelas imagens.
A caligrafia no meio ficou impressionante
Opiniões no Hacker News
gpt-image-2, gerei uma "imagem no estilo Where's Waldo procurando um guaxinim com um rádio amador", e o código está aqui. O resultado é esta imagem, mas, sinceramente, nem eu tenho certeza se o guaxinim está mesmo segurando um rádio amador. Esse tipo de teste no estilo Where's Waldo nunca me dá muita paciência para procurar até o fimgemini-3.1-flash-image-preview, dá 2.520 tokens, cerca de US$ 0,151 por imagem; já uma imagem 3840x2160 comgpt-image-2dá 13.342 tokens, cerca de US$ 0,4. Então esse modelo é mais de 2x mais caro que o Geminigpt-image-1.5da OpenAI e o NB2 do Google ficaram bem parelhos no meu site de comparação. Em avaliações focadas em aderência ao prompt, ambos mostraram taxa de sucesso de cerca de 70% em geração e edição, e em qualidade visual o Gemini sempre esteve um nível acima. Ainda assim, ogpt-image-1.5foi um grande salto para a OpenAI e eliminou muitos problemas antigos, como o famigerado "piss filter". Os gráficos comparativos podem ser vistos para edição aqui e para geração aqui. Na atualização mais recente, ogpt-image-2passou pelo eneagrama de 9 pontas, o chamado model killer do conjunto de testes, e acertou 12 de 15 no benchmark de texto-para-imagem, superando o melhor modelo anterior por 1 ponto. Ainda assim, continuou falhando em prompts como a coral snake com ordem de cores estrita, um D20 com os primeiros 20 números primos escritos nas faces e um planeta em formato de Terra plana com pessoas transbordando pelas bordas. A comparação completa está em All Models, e a dos principais modelos está aquiGPT-Image-2. O artigo relacionado está aqui, e eu mesmo criei um detector de imagens de IA on-device combinando essas duas coisas