1 pontos por GN⁺ 2025-04-25 | 1 comentários | Compartilhar no WhatsApp
  • O recurso de geração de imagens que a OpenAI introduziu no ChatGPT no mês passado alcançou a marca de mais de 700 milhões de imagens geradas na primeira semana de lançamento
  • Agora, foi lançado o modelo gpt-image-1, que expande isso para a API, permitindo que desenvolvedores e empresas integrem o recurso às suas próprias plataformas
  • Ele já está sendo usado em diversos setores para design, criação de logotipos, marketing, edição de vídeo e mais
  • Os recursos de segurança foram reforçados, e os dados dos clientes não são usados por padrão para treinamento ao utilizar a API
  • Dependendo da qualidade, o custo por imagem é de aproximadamente $0.02 (baixa), $0.07 (média), $0.19 (alta)

Modelo de geração de imagens disponibilizado via API

  • A OpenAI lançou o modelo gpt-image-1, levando para a API o recurso de geração de imagens que fez sucesso no ChatGPT
  • O modelo é capaz de gerar diversos estilos, renderizar texto com precisão, seguir fielmente diretrizes personalizadas e aproveitar conhecimento de mundo
  • Empresas e startups já o utilizam em diversas áreas, como design, comércio eletrônico, educação e jogos

Principais casos de uso

  • Adobe: oferece recursos de geração de imagens no Firefly e no Express para experimentar diferentes estilos estéticos
  • Airtable: usa IA para elevar a produtividade criativa em fluxos de trabalho em larga escala
  • Figma: integrou recursos de geração e edição de imagens com gpt-image-1 à plataforma, permitindo que usuários explorem ideias visualmente
  • Canva integrou o gpt-image-1 ao Canva AI e ao Magic Studio para expandir recursos de criação e edição de design
    • Por exemplo, é possível transformar desenhos à mão em elementos gráficos refinados ou fazer edições de alta precisão
  • GoDaddy está testando geração de imagens para criação e edição de logotipos
    • Isso permite remoção de fundo, geração de tipografia e criação de conteúdo que reflita a identidade da marca
    • A integração com o GoDaddy Airo® também oferece suporte à criação de conteúdo para redes sociais e materiais de marketing
  • HubSpot está testando recursos de geração de imagens para criar materiais de marketing e vendas
    • Com a possibilidade de produzir imagens de alta qualidade sem designers, isso pode ser usado em e-mails, redes sociais e landing pages
  • Gamma: gera mais de 5 milhões de imagens com IA por dia para apoiar apresentações e sites
  • HeyGen: aprimora recursos de criação e edição de avatares para oferecer uma experiência mais personalizada aos usuários
  • OpusClip: gera thumbnails voltadas a cliques para criadores do YouTube
  • Instacart está testando a API de geração de imagens para adicionar imagens a receitas e listas de compras
  • invideo adotou o gpt-image-1 e adicionou recursos de melhoria na geração de texto, controle preciso de edição e guias de estilo

Segurança

  • O gpt-image-1 usa as mesmas proteções de segurança da geração de imagens do 4o usada no ChatGPT
  • Ele ajuda a evitar a geração de imagens nocivas e inclui metadados C2PA nas imagens geradas
  • O parâmetro moderation permite ajustar a sensibilidade da filtragem (padrão: auto, baixa sensibilidade: low)
  • A OpenAI não treina modelos com dados de clientes da API, e as entradas/saídas seguem as políticas de uso da API

Política de preços

  • Tokens de entrada de texto: $5 por 1 milhão de tokens
  • Tokens de entrada de imagem: $10 por 1 milhão de tokens
  • Tokens de saída de imagem: $40 por 1 milhão de tokens
  • Dependendo da qualidade, o custo por imagem é de aproximadamente $0.02 (baixa), $0.07 (média), $0.19 (alta)

Como começar

  • O gpt-image-1 está disponível globalmente na Images API, e o suporte à Responses API será adicionado em breve
  • Alguns desenvolvedores talvez precisem passar por um processo de verificação da organização para usar o recurso
  • É possível testar a funcionalidade no Playground e começar pela documentação de guia

1 comentários

 
GN⁺ 2025-04-25
Comentários do Hacker News
  • Ontem reclamaram do fato de a taxa de recusa ser muito alta em trabalhos relacionados ao governo e às forças armadas. Isso pode acabar levando contratadas a usar modelos open source desenvolvidos na CN, o que pode comprometer o trabalho

    • Hoje descobriram que existe uma camada de acesso à API com quase nenhuma censura de conteúdo para empresas que atuam nessa área. Não sabem como solicitar esse nível de acesso, mas já conversaram com quatro contratadas de defesa que o utilizam
  • Por curiosidade, geraram o mesmo prompt para cada nível de qualidade: Auto, low, medium, high

    • Prompt: "um cachorro fofo abraçando um gato fofo"
    • Mostraram alguns exemplos de imagens do DALL:E 3 nos comentários para comparação
  • Geraram cinco imagens no Playground. Uma usou apenas prompt de texto, e as outras quatro usaram imagens do celular. Gastaram US$ 0,85 em retratos no estilo Studio Ghibli para o chat em grupo da família, mas é caro demais para usar em um produto voltado a clientes

  • Ficam curiosos sobre aplicações que precisem gerar centenas ou milhares de imagens. Gostam de transformar fotos de família em estilo Ghibli, mas não precisam disso em grande escala. Sempre que usaram geração de imagens, foi para tarefas pontuais, e fazer isso na interface do ChatGPT já foi satisfatório

  • Em termos de preço, essa API será difícil de justificar, a menos que o valor venha de fornecer referências. A geração medium em 1024x1024 sai por US$ 0,04 por imagem, ficando na mesma faixa de custo de Imagen 3 e Flux 1.1 Pro. Pelos testes feitos no novo Playground, as imagens em nível medium têm qualidade inferior à dos dois modelos concorrentes e ainda levam mais de 15 segundos para serem geradas

    • O prompting do modelo é consideravelmente diferente e mais difícil do que nos modelos tradicionais. Truques tradicionais de geração de imagem basicamente não funcionam, e é difícil conseguir algo que funcione sem um reforço considerável no prompt
  • "Edição de vídeo: o invideo permite que milhões de usuários usem IA para transformar ideias em vídeos. Com a integração do gpt-image-1, a plataforma agora oferece geração de texto aprimorada, controle de edição detalhado e orientação avançada de estilo"

    • Ficam se perguntando se isso significa que ele também lida com vídeo de alguma forma
  • O uso do gpt-image-1 é cobrado por token, com preços separados para tokens de texto e de imagem

    • Tokens de entrada de texto (texto do prompt): US$ 5 por 1M de tokens
    • Tokens de entrada de imagem (imagem de entrada): US$ 10 por 1M de tokens
    • Tokens de saída de imagem (imagem gerada): US$ 40 por 1M de tokens
    • Na prática, isso equivale a cerca de US$ 0,02, US$ 0,07 e US$ 0,19 por imagem quadrada de baixa, média e alta qualidade, respectivamente
    • É um preço um tanto alto para startups
  • Para quem tem curiosidade, isso é baseado em LLM, não em difusão. Isso faz com que siga prompts de texto com precisão muito maior

    • Por exemplo, usuários de apps de geração de imagem (incluindo a pessoa que comentou) tentaram criar uma foto de uma pessoa dentro da bolsa de um canguru
    • Não funcionava, independentemente do prompt usado
    • Este novo modelo conseguiu de primeira
  • A GoDaddy está experimentando ativamente integrar geração de imagens para permitir que clientes criem logos facilmente editáveis

    • A pessoa lembra de ter conhecido, no Discord, há 1 ou 2 anos, alguém trabalhando em ícones gerados por clientes para a GoDaddy. Um modelo customizado nessa escala pode acabar sendo substituído pelo gpt-image-1
  • Alguém tem ideia do que "tokens de imagem" representam na precificação?

    • Ficam se perguntando se isso corresponde a blocos de imagem de tamanho fixo