- A OpenAI há muito tempo acredita que a geração de imagens deve ser uma das capacidades centrais dos modelos de linguagem e, com base nessa visão, integrou seu gerador de imagens mais sofisticado e poderoso ao GPT‑4o
- A geração de imagens do GPT‑4o vai além de simplesmente criar imagens bonitas e produz resultados realmente úteis e valiosos
- É precisa e exata, com capacidade de gerar imagens de alta qualidade em nível de fotorrealismo
- Como os recursos multimodais já vêm integrados por padrão, é possível criar conteúdo visual usando linguagem, imagem e contexto em conjunto
Recursos úteis de geração de imagens
- Os seres humanos usam imagens visuais para transmitir informações, persuadir e analisar desde as pinturas rupestres antigas até os infográficos modernos
- Os modelos generativos anteriores conseguiam criar imagens fantásticas ou impressionantes, mas tinham dificuldade com imagens práticas para transmissão de informação
- A geração de imagens do GPT‑4o se destaca na criação de imagens precisas para comunicar significado, como logotipos e diagramas
- Inclui recursos avançados como renderização precisa de texto, uso do contexto da conversa com o usuário e geração com base em imagens enviadas
- Esses recursos ajudam o usuário a criar com mais precisão a imagem que deseja
Capacidade de geração de imagens aprimorada
- Aprende a distribuição conjunta de imagens e textos online para compreender as relações entre imagem e linguagem, bem como entre imagens
- Após o processo de ajuste pós-treinamento, alcança maior fluidez visual e consegue gerar imagens úteis e consistentes
Recurso de renderização de texto
- Uma imagem pode conter milhares de palavras, mas algumas palavras posicionadas corretamente podem reforçar seu significado
- O GPT‑4o pode combinar símbolos ou textos precisos em imagens e ser usado como ferramenta de comunicação visual
Geração de imagens conversacional
- O GPT‑4o integra a geração de imagens como uma capacidade nativa, permitindo gerar e editar imagens dentro do fluxo da conversa
- Exemplo: ao projetar um personagem de jogo, é possível fazer revisões repetidas mantendo de forma consistente sua aparência
Reflexo preciso das instruções
- O GPT‑4o segue com precisão prompts detalhados
- Enquanto outros sistemas conseguem lidar com cerca de 5 a 8 objetos, o GPT‑4o consegue gerar de forma consistente até 10 a 20 objetos
- Mantém com mais precisão os atributos dos objetos e a expressão das relações entre eles
Aprendizado baseado em contexto
- Analisa imagens enviadas pelo usuário e reflete os detalhes dessas imagens na geração
Conexão com conhecimento do mundo
- O GPT‑4o conecta conhecimento entre texto e imagem, permitindo uma geração de imagens mais inteligente e eficiente
Fotorrealismo e diversos estilos
- Foi treinado em vários estilos de imagem, permitindo gerar imagens realistas e realizar transformações de estilo
Limitações do modelo
- Não é um modelo perfeito
- Após o lançamento inicial, melhorias contínuas estão previstas com base em feedback dos usuários e dados
Esforços para garantir segurança
- Mantém padrões fortes de segurança ao mesmo tempo em que incentiva atividades criativas benéficas, como desenvolvimento de jogos, exploração histórica e educação
- Políticas rigorosas estão sendo aplicadas para impedir a geração de imagens inadequadas
-
Garantia de transparência por meio de C2PA e ferramenta interna de busca
- Todas as imagens geradas pelo GPT‑4o incluem metadados C2PA, deixando clara sua origem
- É possível verificar a origem da imagem com base em atributos técnicos usando uma ferramenta interna de busca
-
Bloqueio de imagens inadequadas
- Solicitações para gerar imagens que violem políticas, como imagens sexuais envolvendo crianças ou deepfakes, são bloqueadas
- Restrições ainda mais rígidas são aplicadas a imagens que incluam pessoas reais
- Há um sistema rigoroso de bloqueio preventivo para nudez e imagens violentas
-
Reforço de segurança com base em raciocínio
- Foi treinado um LLM baseado em raciocínio que opera com base em especificações de políticas escritas por humanos
- Ele foi usado para identificar e resolver ambiguidades das políticas e, em combinação com tecnologia multimodal, ajusta tanto o texto de entrada quanto a imagem de saída para atender aos critérios das políticas
Disponibilidade
- A partir de hoje, está disponível como gerador de imagens padrão para usuários Plus, Pro, Team e Free
- Suporte para Enterprise e Edu em breve
- Também pode ser usado no Sora, e o modelo DALL·E existente pode ser acessado por meio de um GPT separado
- O recurso de geração de imagens via API deve ser disponibilizado para desenvolvedores dentro de algumas semanas
- Os usuários podem gerar imagens apenas descrevendo o que desejam, além de especificar proporção, cor (código hex), transparência do fundo e mais
- Devido à geração de imagens em alta precisão, o tempo de renderização pode levar até 1 minuto
3 comentários
Ainda não parece estar aparecendo no free; então foi liberado só para Plus, Pro e Team, certo?
No Pro, se você clicar nos ... abaixo da janela de chat, aparece
Criar imagem (atualizado), então acho que é isso.Mas o Best of # não aparecia, então fica confuso se foi aplicado ou não.
Comentários do Hacker News
O novo método de geração de imagens usa tokens e faz inferência no espaço de pixels em vez de difusão
Apresentação do 4o Image Generation: é o gerador de imagens mais avançado
Fico me perguntando por que não adicionam benchmarks com o o1
A transmissão ao vivo do GPT-4o Image Generation da OpenAI é lenta, levando cerca de 30 segundos por imagem
Depois de testar, consegui gerar de uma vez o convite de aniversário da minha filha
Fico satisfeito por não ser aquele estilo CG/quadrinhos supersaturado
Queria saber se existe alguma forma de verificar se um determinado prompt foi processado pelo 4o ou pelo DALL-E
Ainda falha no teste da taça de vinho
Fico curioso sobre o quanto de seleção existe em tantas imagens marcadas como "Best of 8"
Há exemplos de edição iterativa com o novo modelo