12 pontos por GN⁺ 2025-03-26 | 3 comentários | Compartilhar no WhatsApp
  • A OpenAI há muito tempo acredita que a geração de imagens deve ser uma das capacidades centrais dos modelos de linguagem e, com base nessa visão, integrou seu gerador de imagens mais sofisticado e poderoso ao GPT‑4o
  • A geração de imagens do GPT‑4o vai além de simplesmente criar imagens bonitas e produz resultados realmente úteis e valiosos
  • É precisa e exata, com capacidade de gerar imagens de alta qualidade em nível de fotorrealismo
  • Como os recursos multimodais já vêm integrados por padrão, é possível criar conteúdo visual usando linguagem, imagem e contexto em conjunto

Recursos úteis de geração de imagens

  • Os seres humanos usam imagens visuais para transmitir informações, persuadir e analisar desde as pinturas rupestres antigas até os infográficos modernos
  • Os modelos generativos anteriores conseguiam criar imagens fantásticas ou impressionantes, mas tinham dificuldade com imagens práticas para transmissão de informação
  • A geração de imagens do GPT‑4o se destaca na criação de imagens precisas para comunicar significado, como logotipos e diagramas
  • Inclui recursos avançados como renderização precisa de texto, uso do contexto da conversa com o usuário e geração com base em imagens enviadas
  • Esses recursos ajudam o usuário a criar com mais precisão a imagem que deseja

Capacidade de geração de imagens aprimorada

  • Aprende a distribuição conjunta de imagens e textos online para compreender as relações entre imagem e linguagem, bem como entre imagens
  • Após o processo de ajuste pós-treinamento, alcança maior fluidez visual e consegue gerar imagens úteis e consistentes

Recurso de renderização de texto

  • Uma imagem pode conter milhares de palavras, mas algumas palavras posicionadas corretamente podem reforçar seu significado
  • O GPT‑4o pode combinar símbolos ou textos precisos em imagens e ser usado como ferramenta de comunicação visual

Geração de imagens conversacional

  • O GPT‑4o integra a geração de imagens como uma capacidade nativa, permitindo gerar e editar imagens dentro do fluxo da conversa
  • Exemplo: ao projetar um personagem de jogo, é possível fazer revisões repetidas mantendo de forma consistente sua aparência

Reflexo preciso das instruções

  • O GPT‑4o segue com precisão prompts detalhados
  • Enquanto outros sistemas conseguem lidar com cerca de 5 a 8 objetos, o GPT‑4o consegue gerar de forma consistente até 10 a 20 objetos
  • Mantém com mais precisão os atributos dos objetos e a expressão das relações entre eles

Aprendizado baseado em contexto

  • Analisa imagens enviadas pelo usuário e reflete os detalhes dessas imagens na geração

Conexão com conhecimento do mundo

  • O GPT‑4o conecta conhecimento entre texto e imagem, permitindo uma geração de imagens mais inteligente e eficiente

Fotorrealismo e diversos estilos

  • Foi treinado em vários estilos de imagem, permitindo gerar imagens realistas e realizar transformações de estilo

Limitações do modelo

  • Não é um modelo perfeito
  • Após o lançamento inicial, melhorias contínuas estão previstas com base em feedback dos usuários e dados

Esforços para garantir segurança

  • Mantém padrões fortes de segurança ao mesmo tempo em que incentiva atividades criativas benéficas, como desenvolvimento de jogos, exploração histórica e educação
  • Políticas rigorosas estão sendo aplicadas para impedir a geração de imagens inadequadas
  • Garantia de transparência por meio de C2PA e ferramenta interna de busca

    • Todas as imagens geradas pelo GPT‑4o incluem metadados C2PA, deixando clara sua origem
    • É possível verificar a origem da imagem com base em atributos técnicos usando uma ferramenta interna de busca
  • Bloqueio de imagens inadequadas

    • Solicitações para gerar imagens que violem políticas, como imagens sexuais envolvendo crianças ou deepfakes, são bloqueadas
    • Restrições ainda mais rígidas são aplicadas a imagens que incluam pessoas reais
    • Há um sistema rigoroso de bloqueio preventivo para nudez e imagens violentas
  • Reforço de segurança com base em raciocínio

    • Foi treinado um LLM baseado em raciocínio que opera com base em especificações de políticas escritas por humanos
    • Ele foi usado para identificar e resolver ambiguidades das políticas e, em combinação com tecnologia multimodal, ajusta tanto o texto de entrada quanto a imagem de saída para atender aos critérios das políticas

Disponibilidade

  • A partir de hoje, está disponível como gerador de imagens padrão para usuários Plus, Pro, Team e Free
  • Suporte para Enterprise e Edu em breve
  • Também pode ser usado no Sora, e o modelo DALL·E existente pode ser acessado por meio de um GPT separado
  • O recurso de geração de imagens via API deve ser disponibilizado para desenvolvedores dentro de algumas semanas
  • Os usuários podem gerar imagens apenas descrevendo o que desejam, além de especificar proporção, cor (código hex), transparência do fundo e mais
  • Devido à geração de imagens em alta precisão, o tempo de renderização pode levar até 1 minuto

3 comentários

 
j2sus91 2025-03-26

Ainda não parece estar aparecendo no free; então foi liberado só para Plus, Pro e Team, certo?

 
laeyoung 2025-03-26

No Pro, se você clicar nos ... abaixo da janela de chat, aparece Criar imagem (atualizado), então acho que é isso.
Mas o Best of # não aparecia, então fica confuso se foi aplicado ou não.

 
GN⁺ 2025-03-26
Comentários do Hacker News
  • O novo método de geração de imagens usa tokens e faz inferência no espaço de pixels em vez de difusão

    • Por exemplo, pode desenhar um bloco de notas com um jogo da velha vazio, fazer a primeira jogada e depois continuar conforme o usuário faz suas jogadas
    • Também é possível mudar o estilo do desenho ou fazer transformações que preservam a informação, como "transformar o dia em noite" e "colocar um chapéu"
    • A resolução do modelo é limitada, mas os avanços nessa área podem tornar possível projetar um app passo a passo em imagens e depois escrever o código
    • Como o modelo pode continuar a "raciocinar" a partir de imagens externas, ele pode melhorar o resultado mesmo quando a geração original não ficou boa
    • Se o modelo ficar mais rápido, dá para imaginar uma verdadeira UI generativa que produza o próximo frame de um app com base em eventos de LLM
    • Modelos de difusão também conseguem fazer tarefas parecidas com mais velocidade
  • Apresentação do 4o Image Generation: é o gerador de imagens mais avançado

    • Google Gemini 2.5: é o modelo de IA mais inteligente
    • Apresentação do Gemini 2.0: é o modelo de IA mais capaz
    • Espero que essa tendência desapareça e que a Apple use algo eficaz para que outras empresas passem a copiar o novo termo
  • Fico me perguntando por que não adicionam benchmarks com o o1

  • A transmissão ao vivo do GPT-4o Image Generation da OpenAI é lenta, levando cerca de 30 segundos por imagem

    • Sam Altman explicou que "é lento, mas a imagem gerada vale a pena"
    • Em vez da abordagem por difusão, ele gera e decodifica tokens de imagem, de forma parecida com o DALL-E original
    • O Gemini do Google consegue gerar e editar imagens em poucos segundos
    • Ainda não há API e, por causa da lentidão, espera-se que custe mais do que os $0.03+ por imagem dos concorrentes
  • Depois de testar, consegui gerar de uma vez o convite de aniversário da minha filha

    • Acertou exatamente os elementos e o estilo que eu queria
    • Também se saiu bem quando pedi para adicionar detalhes como data, local etc.
    • Os modelos anteriores não chegavam nem à metade disso
  • Fico satisfeito por não ser aquele estilo CG/quadrinhos supersaturado

  • Queria saber se existe alguma forma de verificar se um determinado prompt foi processado pelo 4o ou pelo DALL-E

    • Parece que, no momento, os prompts ainda estão sendo processados pelo segundo
    • O plano de longo prazo é migrar totalmente para o 4o e mover o DALL-E para uma aba separada
  • Ainda falha no teste da taça de vinho

  • Fico curioso sobre o quanto de seleção existe em tantas imagens marcadas como "Best of 8"

    • Das três imagens gratuitas, duas foram impressionantes e uma falhou
  • Há exemplos de edição iterativa com o novo modelo

    • Está muito melhor do que os modelos anteriores, mas ainda gera corpos com dedos demais ou braços demais