- O recurso de geração de imagens do ChatGPT foi atualizado, oferecendo edição mais precisa e geração mais rápida
- O modelo GPT‑Image‑1.5 segue instruções de texto com mais precisão e permite editar mantendo a semelhança da pessoa, a iluminação e a composição
- A nova interface de barra lateral do Images oferece estilos predefinidos, prompts em alta e reutilização de aparência
- Na API, há os mesmos ganhos de desempenho com redução de 20% no custo, sendo adequada para geração de logos de marca e imagens de produto
- Esta atualização está sendo disponibilizada imediatamente para todos os usuários do ChatGPT e da API, ampliando bastante a praticidade e a qualidade da geração de imagens
Apresentando o GPT‑Image‑1.5
- Foi lançada uma nova versão do ChatGPT Images baseada no modelo de geração de imagens mais poderoso
- Segue instruções de texto com mais precisão e permite editar preservando detalhes como a semelhança facial
- A velocidade de geração de imagens ficou até 4 vezes mais rápida, aumentando a eficiência em experimentação iterativa e exploração de ideias
- O modelo oferece transformações expressivas, renderização de texto densa e resultados naturais
- Vai de pequenos ajustes a reconstruções completas, e permite gerar imagens com facilidade ao escolher estilos predefinidos
- Está sendo distribuído gradualmente para todos os usuários do ChatGPT e, na API, é oferecido como GPT‑Image‑1.5
Resultados alinhados à intenção do usuário
- O modelo altera apenas as partes solicitadas, mantendo de forma consistente a iluminação, a composição e a semelhança da pessoa
- Com isso, alcança alta fidelidade em edição de fotos, simulação de roupas e penteados, filtros de estilo e transformação conceitual
- O ChatGPT passa a atuar como um estúdio criativo portátil, realizando tanto edições práticas quanto reconstruções artísticas
- Suporta vários tipos de edição, como adicionar, remover, combinar e misturar
- Foram reforçados os recursos de transformação criativa para adicionar elementos como texto e layout
- Em comparação com o GPT Image 1.0, houve melhora na compreensão de prompts, permitindo edições mais detalhadas
- Também houve melhora na qualidade da renderização de textos densos e pequenos
Novo espaço de geração de imagens
- Foi introduzida uma barra lateral dedicada ao Images dentro do ChatGPT para encurtar o processo de exploração e criação de imagens
- Inclui filtros predefinidos, prompts em alta e recurso de reutilização de aparência
- É possível reaproveitar uploads repetidamente sem precisar reutilizar o rolo da câmera
- A velocidade de geração de imagens teve melhora de até 4 vezes, com possibilidade de criar várias imagens ao mesmo tempo
- Entrega resultados alinhados à visão do usuário, desde pequenas edições até reconstruções completas
Melhorias adicionais de qualidade
- Houve melhoria imediata de qualidade em áreas como representação de muitos rostos pequenos e renderização de resultados naturais
- Exemplo: recria com realismo uma cena de rua de Londres nos anos 1970, com melhor foco em detalhes e representação das pessoas
Melhorias e limitações
- Em comparação com a versão inicial, foi confirmada melhora clara de desempenho em vários casos
- Ainda assim, alguns resultados continuam imperfeitos, e múltiplos rostos e processamento multilíngue ainda têm espaço para evolução
Disponibilidade do GPT Image 1.5 via API
- A versão de API inclui as mesmas melhorias do ChatGPT Images
- Mantém a consistência de logos de marca e visuais principais
- É adequada para gerar imagens para marketing e comércio eletrônico
- Houve redução de 20% nos custos de entrada e saída, permitindo gerar mais imagens com o mesmo orçamento
- Pode ser testado no OpenAI Playground, na galeria e no guia de prompts
- Empresas como Wix, Canva, Figma e Envato já estão usando
- A Wix avaliou que há “geração de imagens com alta qualidade e alta consistência, dando suporte a fluxos de trabalho de produção mais rápidos”
Lançamento e distribuição
- O novo modelo do ChatGPT Images está sendo disponibilizado imediatamente para todos os usuários do ChatGPT e da API no mundo todo
- Pode ser usado sem seleção separada de modelo, e a versão anterior será mantida como GPT personalizado
- A OpenAI avalia esta atualização como um passo importante no avanço da tecnologia de geração de imagens
- Estão previstas melhorias adicionais no futuro, como edições ainda mais detalhadas e suporte multilíngue
1 comentários
Comentários do Hacker News
Compartilharam os resultados do gpt-image 1.5 no site GenAI Showdown
A OpenAI continuava forte em entendimento de prompts, mas tendia a ter fraqueza em fidelidade de imagem (fidelity). Nesta atualização, essa fraqueza melhorou bastante
Em especial, ele faz bem edições localizadas (localized edit) sem prejudicar a estética geral. A pontuação passou de 4/12 para 8/12, dobrando, e foi o único modelo a passar no “Giraffe prompt”
A controlabilidade (steerability) do modelo também está alta, em torno de 90%
Entre os recursos adicionados estão uma seção de falhas por modelo (outtakes), inclusão dos modelos REVE e Flux.2 Dev, e um sistema de pontuação baseado em pesos
Para comparar os três modelos (gpt-image-1, gpt-image-1.5, NB Pro), veja este link
Está sendo preparado um post de blog reunindo experimentos relacionados ao Nano Banana
Ao testar o novo modelo de imagem do ChatGPT, ele se mostrou bem pior que o Nano Banana Pro, mas melhor que o Nano Banana básico
O preço não está claro, mas o gpt-image-1.5 parece ser cerca de 20% mais barato que o modelo anterior
Um caso interessante é o de geração de grades (grid generation). O NBP perde consistência de prompt acima de 4x4, então foi impressionante ver a OpenAI tentar um caso 6x6
Enquanto isso, os resultados impressionantes do NB Pro podem ser vistos neste blog
O NB Pro produziu resultados surpreendentes, como montar um quebra-cabeça, estimar terreno 3D e transformar janelas em espelhos
Por exemplo, ao pedir duas pessoas remando, o barco ficou tão pequeno que mal cabiam nele
Também foi muito incômodo um bug em que todo o contexto anterior da conversa sumia a cada prompt de edição
Para obter resultados naturais, foi adicionada ao começo do prompt uma frase como “shaky amateur smartphone photo”
Como referência, reações relacionadas também podem ser vistas neste tweet
O gpt-image-1 é muito melhor que o Nano Banana(Pro) em previz-to-render
O Nano Banana mantém elementos de previsualização em baixa resolução, mas o gpt-image-1 entende pose de personagens e blocking de cena, além de fazer upscaling
Vídeos de exemplo: 3D + Posing + Blocking, versão com reutilização de set, Gaussian splats, mais exemplos
Daqui para frente, são necessários modelos com controle de estilo, velocidade e estilização baseada em imagem de referência
A Adobe também está experimentando recursos parecidos e demonstrou Relighting, edição de Image→3D, edição Gaussian, conversão 3D→Image etc.
Estou implementando esses recursos por conta própria como uma ferramenta desktop open source, desenvolvida em Rust
Se em 2010 fosse um serviço em que pessoas do Photoshop combinassem imagens, isso provavelmente teria gerado grande controvérsia
Agora estamos numa era em que a IA desmontou os conceitos de copyright e autoria, e fica a dúvida de como conteúdos novos poderão ser protegidos
No passado, o gpt chegou a reproduzir quase exatamente uma foto minha de estilo raro
No momento em que algo é publicado, é preciso aceitar certo nível de uso indevido. Ainda não há precedente legal para casos em que o modelo faz overfitting no original
Tentaram gerar sprite maps e mapas de textura UV com o gpt-image-1.5, e ele capturou bem a sensação de Megaman Legends
Exemplo 1, Exemplo 2
Mas, como não havia um modelo 3D real, não dá para ter certeza de que é um mapa UV correto. As primeiras versões do Nano Banana não conseguiam fazer esse tipo de tarefa
Dá para usar essas texturas, mas a distorção será forte
A abordagem correta é fazer o unwrap do modelo e usar um mapa UV wireframe como entrada
O modelo real do Crash pode ser visto aqui
Foi feito um experimento de aplicação de tema escuro em um produto de software
Gemini/Nano só mudou alguns painéis para cinza, mas o GPT tematizou o app inteiro de forma elegante
Mesmo assim, o design detalhado ainda precisa do toque de um designer
Havia curiosidade sobre o motivo daquele tom amarelado que sempre aparecia nas imagens do ChatGPT
A proposta de produto de “criar imagens a partir de memórias que não existem” parece estranha
Eu uso principalmente para tarefas centradas em texto, como programação, wiki e matemática
Esse fenômeno lembra a época em que os filtros do Snapchat estavam na moda. Eu costumava deixar no modo padrão
No fim, todo mundo pode acabar assinando uma vida virtual, e quando o pagamento do cartão falhar será a volta à realidade
Como o novo modelo parecia funcionar na API, alguém atualizou o grail SDK de Golang,
mas ao chamar houve erro 500 do servidor. O gpt-image-1.5 também não aparece na lista de modelos
Veja o exemplo de código
No meu playground local (gpt-image-1-playground), fiz uma correção para tratar 404
Se o nome do modelo é inserido errado, aparece a mensagem de que “os valores suportados são apenas gpt-image-1 e gpt-image-1-mini”
Ainda uso Midjourney. Os outros grandes modelos carecem de criatividade estilística e focam apenas em fotorrealismo
Para criar não uma imagem única, mas uma sequência com contexto, esses recursos são essenciais
Havia uma tendência de julgar o valor da arte apenas pela “capacidade técnica de renderização”, ignorando o significado da criação cultural dentro de seu contexto social