3 pontos por GN⁺ 2025-12-17 | 1 comentários | Compartilhar no WhatsApp
  • O recurso de geração de imagens do ChatGPT foi atualizado, oferecendo edição mais precisa e geração mais rápida
  • O modelo GPT‑Image‑1.5 segue instruções de texto com mais precisão e permite editar mantendo a semelhança da pessoa, a iluminação e a composição
  • A nova interface de barra lateral do Images oferece estilos predefinidos, prompts em alta e reutilização de aparência
  • Na API, há os mesmos ganhos de desempenho com redução de 20% no custo, sendo adequada para geração de logos de marca e imagens de produto
  • Esta atualização está sendo disponibilizada imediatamente para todos os usuários do ChatGPT e da API, ampliando bastante a praticidade e a qualidade da geração de imagens

Apresentando o GPT‑Image‑1.5

  • Foi lançada uma nova versão do ChatGPT Images baseada no modelo de geração de imagens mais poderoso
    • Segue instruções de texto com mais precisão e permite editar preservando detalhes como a semelhança facial
    • A velocidade de geração de imagens ficou até 4 vezes mais rápida, aumentando a eficiência em experimentação iterativa e exploração de ideias
  • O modelo oferece transformações expressivas, renderização de texto densa e resultados naturais
    • Vai de pequenos ajustes a reconstruções completas, e permite gerar imagens com facilidade ao escolher estilos predefinidos
  • Está sendo distribuído gradualmente para todos os usuários do ChatGPT e, na API, é oferecido como GPT‑Image‑1.5

Resultados alinhados à intenção do usuário

  • O modelo altera apenas as partes solicitadas, mantendo de forma consistente a iluminação, a composição e a semelhança da pessoa
  • Com isso, alcança alta fidelidade em edição de fotos, simulação de roupas e penteados, filtros de estilo e transformação conceitual
  • O ChatGPT passa a atuar como um estúdio criativo portátil, realizando tanto edições práticas quanto reconstruções artísticas
    • Suporta vários tipos de edição, como adicionar, remover, combinar e misturar
    • Foram reforçados os recursos de transformação criativa para adicionar elementos como texto e layout
    • Em comparação com o GPT Image 1.0, houve melhora na compreensão de prompts, permitindo edições mais detalhadas
    • Também houve melhora na qualidade da renderização de textos densos e pequenos

Novo espaço de geração de imagens

  • Foi introduzida uma barra lateral dedicada ao Images dentro do ChatGPT para encurtar o processo de exploração e criação de imagens
    • Inclui filtros predefinidos, prompts em alta e recurso de reutilização de aparência
    • É possível reaproveitar uploads repetidamente sem precisar reutilizar o rolo da câmera
  • A velocidade de geração de imagens teve melhora de até 4 vezes, com possibilidade de criar várias imagens ao mesmo tempo
  • Entrega resultados alinhados à visão do usuário, desde pequenas edições até reconstruções completas

Melhorias adicionais de qualidade

  • Houve melhoria imediata de qualidade em áreas como representação de muitos rostos pequenos e renderização de resultados naturais
  • Exemplo: recria com realismo uma cena de rua de Londres nos anos 1970, com melhor foco em detalhes e representação das pessoas

Melhorias e limitações

  • Em comparação com a versão inicial, foi confirmada melhora clara de desempenho em vários casos
  • Ainda assim, alguns resultados continuam imperfeitos, e múltiplos rostos e processamento multilíngue ainda têm espaço para evolução

Disponibilidade do GPT Image 1.5 via API

  • A versão de API inclui as mesmas melhorias do ChatGPT Images
    • Mantém a consistência de logos de marca e visuais principais
    • É adequada para gerar imagens para marketing e comércio eletrônico
  • Houve redução de 20% nos custos de entrada e saída, permitindo gerar mais imagens com o mesmo orçamento
  • Pode ser testado no OpenAI Playground, na galeria e no guia de prompts
  • Empresas como Wix, Canva, Figma e Envato já estão usando
    • A Wix avaliou que há “geração de imagens com alta qualidade e alta consistência, dando suporte a fluxos de trabalho de produção mais rápidos”

Lançamento e distribuição

  • O novo modelo do ChatGPT Images está sendo disponibilizado imediatamente para todos os usuários do ChatGPT e da API no mundo todo
  • Pode ser usado sem seleção separada de modelo, e a versão anterior será mantida como GPT personalizado
  • A OpenAI avalia esta atualização como um passo importante no avanço da tecnologia de geração de imagens
    • Estão previstas melhorias adicionais no futuro, como edições ainda mais detalhadas e suporte multilíngue

1 comentários

 
GN⁺ 2025-12-17
Comentários do Hacker News
  • Compartilharam os resultados do gpt-image 1.5 no site GenAI Showdown
    A OpenAI continuava forte em entendimento de prompts, mas tendia a ter fraqueza em fidelidade de imagem (fidelity). Nesta atualização, essa fraqueza melhorou bastante
    Em especial, ele faz bem edições localizadas (localized edit) sem prejudicar a estética geral. A pontuação passou de 4/12 para 8/12, dobrando, e foi o único modelo a passar no “Giraffe prompt”
    A controlabilidade (steerability) do modelo também está alta, em torno de 90%
    Entre os recursos adicionados estão uma seção de falhas por modelo (outtakes), inclusão dos modelos REVE e Flux.2 Dev, e um sistema de pontuação baseado em pesos
    Para comparar os três modelos (gpt-image-1, gpt-image-1.5, NB Pro), veja este link

  • Está sendo preparado um post de blog reunindo experimentos relacionados ao Nano Banana
    Ao testar o novo modelo de imagem do ChatGPT, ele se mostrou bem pior que o Nano Banana Pro, mas melhor que o Nano Banana básico
    O preço não está claro, mas o gpt-image-1.5 parece ser cerca de 20% mais barato que o modelo anterior
    Um caso interessante é o de geração de grades (grid generation). O NBP perde consistência de prompt acima de 4x4, então foi impressionante ver a OpenAI tentar um caso 6x6

    • Hoje ainda pretendo rodar o gpt-image-1.5 no meu GenAI Showdown
      Enquanto isso, os resultados impressionantes do NB Pro podem ser vistos neste blog
      O NB Pro produziu resultados surpreendentes, como montar um quebra-cabeça, estimar terreno 3D e transformar janelas em espelhos
    • Ao testar o GPT1.5 diretamente, a qualidade de imagem pareceu parecida com a do NBP, mas a consistência de prompt e a compreensão do modelo de mundo ficaram abaixo
      Por exemplo, ao pedir duas pessoas remando, o barco ficou tão pequeno que mal cabiam nele
      Também foi muito incômodo um bug em que todo o contexto anterior da conversa sumia a cada prompt de edição
      Para obter resultados naturais, foi adicionada ao começo do prompt uma frase como “shaky amateur smartphone photo
      Como referência, reações relacionadas também podem ser vistas neste tweet
    • Depois de mais de 10 anos trabalhando com cinema, há uma necessidade enorme de uma ferramenta consistente de composição de cenas
      O gpt-image-1 é muito melhor que o Nano Banana(Pro) em previz-to-render
      O Nano Banana mantém elementos de previsualização em baixa resolução, mas o gpt-image-1 entende pose de personagens e blocking de cena, além de fazer upscaling
      Vídeos de exemplo: 3D + Posing + Blocking, versão com reutilização de set, Gaussian splats, mais exemplos
      Daqui para frente, são necessários modelos com controle de estilo, velocidade e estilização baseada em imagem de referência
      A Adobe também está experimentando recursos parecidos e demonstrou Relighting, edição de Image→3D, edição Gaussian, conversão 3D→Image etc.
      Estou implementando esses recursos por conta própria como uma ferramenta desktop open source, desenvolvida em Rust
    • Houve feedback de que os experimentos foram interessantes. Graças a isso, a forma de escrever prompts melhorou e as expectativas ficaram mais realistas
  • Se em 2010 fosse um serviço em que pessoas do Photoshop combinassem imagens, isso provavelmente teria gerado grande controvérsia
    Agora estamos numa era em que a IA desmontou os conceitos de copyright e autoria, e fica a dúvida de como conteúdos novos poderão ser protegidos
    No passado, o gpt chegou a reproduzir quase exatamente uma foto minha de estilo raro

    • O uso de imagens de referência é uma prática padrão da indústria de arte digital. O problema é que a IA pode correr o risco de copiar de forma excessivamente semelhante
    • Para proteger conteúdo, o único método é um air gap: ou seja, não colocar na internet
      No momento em que algo é publicado, é preciso aceitar certo nível de uso indevido. Ainda não há precedente legal para casos em que o modelo faz overfitting no original
    • Provavelmente estamos entrando numa era pós-copyright. A lei vai correr atrás disso em breve
    • Mesmo que alguém copie meu trabalho, fica a pergunta: se isso fizer com que muita gente o veja, será necessariamente algo ruim?
  • Tentaram gerar sprite maps e mapas de textura UV com o gpt-image-1.5, e ele capturou bem a sensação de Megaman Legends
    Exemplo 1, Exemplo 2
    Mas, como não havia um modelo 3D real, não dá para ter certeza de que é um mapa UV correto. As primeiras versões do Nano Banana não conseguiam fazer esse tipo de tarefa

    • Para deixar claro, isso não é um mapa UV de verdade. Por exemplo, falta a parte das costas do modelo do Crash
      Dá para usar essas texturas, mas a distorção será forte
      A abordagem correta é fazer o unwrap do modelo e usar um mapa UV wireframe como entrada
      O modelo real do Crash pode ser visto aqui
  • Foi feito um experimento de aplicação de tema escuro em um produto de software
    Gemini/Nano só mudou alguns painéis para cinza, mas o GPT tematizou o app inteiro de forma elegante
    Mesmo assim, o design detalhado ainda precisa do toque de um designer

  • Havia curiosidade sobre o motivo daquele tom amarelado que sempre aparecia nas imagens do ChatGPT

    • É um fenômeno que surgiu a partir de certo momento. Parece ser efeito do reforço relacionado ao boom do estilo Ghibli
    • Meu palpite é que a OpenAI pode ter calculado errado a normalização de imagem. No modelo novo isso desapareceu
    • Os Codec Avatars da Meta tiveram um problema parecido. Coletaram dados com equipamentos de milhões de dólares, mas houve falha na calibração de câmera, deixando tudo esverdeado
    • Outra hipótese é que isso seja resultado do “filtro México” tão comum em filmes ter se infiltrado nos dados de treino
    • Ao fazer ajuste de estilo com base em preferências humanas, surgiu um viés sutil para o amarelo, e esse viés foi se acumulando a cada edição
  • A proposta de produto de “criar imagens a partir de memórias que não existem” parece estranha

    • Também sinto isso, mas pesquisas de mercado mostram que geração de imagens é muito popular
      Eu uso principalmente para tarefas centradas em texto, como programação, wiki e matemática
      Esse fenômeno lembra a época em que os filtros do Snapchat estavam na moda. Eu costumava deixar no modo padrão
    • Se esse prompt gerasse animais de origami, isso pareceria ainda mais sinistro
    • Talvez um dia os atores vendam a própria imagem para criar fotos falsas
      No fim, todo mundo pode acabar assinando uma vida virtual, e quando o pagamento do cartão falhar será a volta à realidade
  • Como o novo modelo parecia funcionar na API, alguém atualizou o grail SDK de Golang,
    mas ao chamar houve erro 500 do servidor. O gpt-image-1.5 também não aparece na lista de modelos
    Veja o exemplo de código

    • Na prática, ele ainda não pode ser usado pela API. Também não aparece no Image Playground linkado pela OpenAI
      No meu playground local (gpt-image-1-playground), fiz uma correção para tratar 404
      • Também tentei e recebi o mesmo erro 500.
        Se o nome do modelo é inserido errado, aparece a mensagem de que “os valores suportados são apenas gpt-image-1 e gpt-image-1-mini”
      • Parece ser um rollout gradual, e ainda não há confirmação nem no backend
  • Ainda uso Midjourney. Os outros grandes modelos carecem de criatividade estilística e focam apenas em fotorrealismo

    • Não conheço bem as atualizações recentes do Midjourney, mas consistência de estilo e manutenção de personagem são recursos importantes
      Para criar não uma imagem única, mas uma sequência com contexto, esses recursos são essenciais
    • Isso pode ser visto como a diferença entre “modelos opinativos vs modelos guiados pela escolha do usuário”. Quando o primeiro funciona bem, ele tem vantagens
    • Houve também reações de surpresa, e gente perguntando se existe uma galeria reunindo imagens relacionadas
    • Essa tendência é um problema cultural que existe desde antes da geração de imagens
      Havia uma tendência de julgar o valor da arte apenas pela “capacidade técnica de renderização”, ignorando o significado da criação cultural dentro de seu contexto social