OpenAI revela recurso de geração de imagens do 4o

(openai.com)

12 pontos por GN⁺ 2025-03-26 | 3 comentários | Compartilhar no WhatsApp

A OpenAI há muito tempo acredita que a geração de imagens deve ser uma das capacidades centrais dos modelos de linguagem e, com base nessa visão, integrou seu gerador de imagens mais sofisticado e poderoso ao GPT‑4o
A geração de imagens do GPT‑4o vai além de simplesmente criar imagens bonitas e produz resultados realmente úteis e valiosos
É precisa e exata, com capacidade de gerar imagens de alta qualidade em nível de fotorrealismo
Como os recursos multimodais já vêm integrados por padrão, é possível criar conteúdo visual usando linguagem, imagem e contexto em conjunto

Recursos úteis de geração de imagens

Os seres humanos usam imagens visuais para transmitir informações, persuadir e analisar desde as pinturas rupestres antigas até os infográficos modernos
Os modelos generativos anteriores conseguiam criar imagens fantásticas ou impressionantes, mas tinham dificuldade com imagens práticas para transmissão de informação
A geração de imagens do GPT‑4o se destaca na criação de imagens precisas para comunicar significado, como logotipos e diagramas
Inclui recursos avançados como renderização precisa de texto, uso do contexto da conversa com o usuário e geração com base em imagens enviadas
Esses recursos ajudam o usuário a criar com mais precisão a imagem que deseja

Capacidade de geração de imagens aprimorada

Aprende a distribuição conjunta de imagens e textos online para compreender as relações entre imagem e linguagem, bem como entre imagens
Após o processo de ajuste pós-treinamento, alcança maior fluidez visual e consegue gerar imagens úteis e consistentes

Recurso de renderização de texto

Uma imagem pode conter milhares de palavras, mas algumas palavras posicionadas corretamente podem reforçar seu significado
O GPT‑4o pode combinar símbolos ou textos precisos em imagens e ser usado como ferramenta de comunicação visual

Geração de imagens conversacional

O GPT‑4o integra a geração de imagens como uma capacidade nativa, permitindo gerar e editar imagens dentro do fluxo da conversa
Exemplo: ao projetar um personagem de jogo, é possível fazer revisões repetidas mantendo de forma consistente sua aparência

Reflexo preciso das instruções

O GPT‑4o segue com precisão prompts detalhados
Enquanto outros sistemas conseguem lidar com cerca de 5 a 8 objetos, o GPT‑4o consegue gerar de forma consistente até 10 a 20 objetos
Mantém com mais precisão os atributos dos objetos e a expressão das relações entre eles

Aprendizado baseado em contexto

Analisa imagens enviadas pelo usuário e reflete os detalhes dessas imagens na geração

Conexão com conhecimento do mundo

O GPT‑4o conecta conhecimento entre texto e imagem, permitindo uma geração de imagens mais inteligente e eficiente

Fotorrealismo e diversos estilos

Foi treinado em vários estilos de imagem, permitindo gerar imagens realistas e realizar transformações de estilo

Limitações do modelo

Não é um modelo perfeito
Após o lançamento inicial, melhorias contínuas estão previstas com base em feedback dos usuários e dados

Esforços para garantir segurança

Mantém padrões fortes de segurança ao mesmo tempo em que incentiva atividades criativas benéficas, como desenvolvimento de jogos, exploração histórica e educação
Políticas rigorosas estão sendo aplicadas para impedir a geração de imagens inadequadas
Garantia de transparência por meio de C2PA e ferramenta interna de busca
- Todas as imagens geradas pelo GPT‑4o incluem metadados C2PA, deixando clara sua origem
- É possível verificar a origem da imagem com base em atributos técnicos usando uma ferramenta interna de busca
Bloqueio de imagens inadequadas
- Solicitações para gerar imagens que violem políticas, como imagens sexuais envolvendo crianças ou deepfakes, são bloqueadas
- Restrições ainda mais rígidas são aplicadas a imagens que incluam pessoas reais
- Há um sistema rigoroso de bloqueio preventivo para nudez e imagens violentas
Reforço de segurança com base em raciocínio
- Foi treinado um LLM baseado em raciocínio que opera com base em especificações de políticas escritas por humanos
- Ele foi usado para identificar e resolver ambiguidades das políticas e, em combinação com tecnologia multimodal, ajusta tanto o texto de entrada quanto a imagem de saída para atender aos critérios das políticas

Disponibilidade

A partir de hoje, está disponível como gerador de imagens padrão para usuários Plus, Pro, Team e Free
Suporte para Enterprise e Edu em breve
Também pode ser usado no Sora, e o modelo DALL·E existente pode ser acessado por meio de um GPT separado
O recurso de geração de imagens via API deve ser disponibilizado para desenvolvedores dentro de algumas semanas
Os usuários podem gerar imagens apenas descrevendo o que desejam, além de especificar proporção, cor (código hex), transparência do fundo e mais
Devido à geração de imagens em alta precisão, o tempo de renderização pode levar até 1 minuto

3 comentários

j2sus91 2025-03-26

Ainda não parece estar aparecendo no free; então foi liberado só para Plus, Pro e Team, certo?

laeyoung 2025-03-26

No Pro, se você clicar nos ... abaixo da janela de chat, aparece Criar imagem (atualizado), então acho que é isso.
Mas o Best of # não aparecia, então fica confuso se foi aplicado ou não.

GN⁺ 2025-03-26

Comentários do Hacker News

O novo método de geração de imagens usa tokens e faz inferência no espaço de pixels em vez de difusão
- Por exemplo, pode desenhar um bloco de notas com um jogo da velha vazio, fazer a primeira jogada e depois continuar conforme o usuário faz suas jogadas
- Também é possível mudar o estilo do desenho ou fazer transformações que preservam a informação, como "transformar o dia em noite" e "colocar um chapéu"
- A resolução do modelo é limitada, mas os avanços nessa área podem tornar possível projetar um app passo a passo em imagens e depois escrever o código
- Como o modelo pode continuar a "raciocinar" a partir de imagens externas, ele pode melhorar o resultado mesmo quando a geração original não ficou boa
- Se o modelo ficar mais rápido, dá para imaginar uma verdadeira UI generativa que produza o próximo frame de um app com base em eventos de LLM
- Modelos de difusão também conseguem fazer tarefas parecidas com mais velocidade
Apresentação do 4o Image Generation: é o gerador de imagens mais avançado
- Google Gemini 2.5: é o modelo de IA mais inteligente
- Apresentação do Gemini 2.0: é o modelo de IA mais capaz
- Espero que essa tendência desapareça e que a Apple use algo eficaz para que outras empresas passem a copiar o novo termo
Fico me perguntando por que não adicionam benchmarks com o o1
A transmissão ao vivo do GPT-4o Image Generation da OpenAI é lenta, levando cerca de 30 segundos por imagem
- Sam Altman explicou que "é lento, mas a imagem gerada vale a pena"
- Em vez da abordagem por difusão, ele gera e decodifica tokens de imagem, de forma parecida com o DALL-E original
- O Gemini do Google consegue gerar e editar imagens em poucos segundos
- Ainda não há API e, por causa da lentidão, espera-se que custe mais do que os $0.03+ por imagem dos concorrentes
Depois de testar, consegui gerar de uma vez o convite de aniversário da minha filha
- Acertou exatamente os elementos e o estilo que eu queria
- Também se saiu bem quando pedi para adicionar detalhes como data, local etc.
- Os modelos anteriores não chegavam nem à metade disso
Fico satisfeito por não ser aquele estilo CG/quadrinhos supersaturado
Queria saber se existe alguma forma de verificar se um determinado prompt foi processado pelo 4o ou pelo DALL-E
- Parece que, no momento, os prompts ainda estão sendo processados pelo segundo
- O plano de longo prazo é migrar totalmente para o 4o e mover o DALL-E para uma aba separada
Ainda falha no teste da taça de vinho
Fico curioso sobre o quanto de seleção existe em tantas imagens marcadas como "Best of 8"
- Das três imagens gratuitas, duas foram impressionantes e uma falhou
Há exemplos de edição iterativa com o novo modelo
- Está muito melhor do que os modelos anteriores, mas ainda gera corpos com dedos demais ou braços demais