- O recurso de geração de imagens que a OpenAI introduziu no ChatGPT no mês passado alcançou a marca de mais de 700 milhões de imagens geradas na primeira semana de lançamento
- Agora, foi lançado o modelo gpt-image-1, que expande isso para a API, permitindo que desenvolvedores e empresas integrem o recurso às suas próprias plataformas
- Ele já está sendo usado em diversos setores para design, criação de logotipos, marketing, edição de vídeo e mais
- Os recursos de segurança foram reforçados, e os dados dos clientes não são usados por padrão para treinamento ao utilizar a API
- Dependendo da qualidade, o custo por imagem é de aproximadamente $0.02 (baixa), $0.07 (média), $0.19 (alta)
Modelo de geração de imagens disponibilizado via API
- A OpenAI lançou o modelo gpt-image-1, levando para a API o recurso de geração de imagens que fez sucesso no ChatGPT
- O modelo é capaz de gerar diversos estilos, renderizar texto com precisão, seguir fielmente diretrizes personalizadas e aproveitar conhecimento de mundo
- Empresas e startups já o utilizam em diversas áreas, como design, comércio eletrônico, educação e jogos
Principais casos de uso
- Adobe: oferece recursos de geração de imagens no Firefly e no Express para experimentar diferentes estilos estéticos
- Airtable: usa IA para elevar a produtividade criativa em fluxos de trabalho em larga escala
- Figma: integrou recursos de geração e edição de imagens com
gpt-image-1 à plataforma, permitindo que usuários explorem ideias visualmente
- Canva integrou o gpt-image-1 ao Canva AI e ao Magic Studio para expandir recursos de criação e edição de design
- Por exemplo, é possível transformar desenhos à mão em elementos gráficos refinados ou fazer edições de alta precisão
- GoDaddy está testando geração de imagens para criação e edição de logotipos
- Isso permite remoção de fundo, geração de tipografia e criação de conteúdo que reflita a identidade da marca
- A integração com o GoDaddy Airo® também oferece suporte à criação de conteúdo para redes sociais e materiais de marketing
- HubSpot está testando recursos de geração de imagens para criar materiais de marketing e vendas
- Com a possibilidade de produzir imagens de alta qualidade sem designers, isso pode ser usado em e-mails, redes sociais e landing pages
- Gamma: gera mais de 5 milhões de imagens com IA por dia para apoiar apresentações e sites
- HeyGen: aprimora recursos de criação e edição de avatares para oferecer uma experiência mais personalizada aos usuários
- OpusClip: gera thumbnails voltadas a cliques para criadores do YouTube
- Instacart está testando a API de geração de imagens para adicionar imagens a receitas e listas de compras
- invideo adotou o gpt-image-1 e adicionou recursos de melhoria na geração de texto, controle preciso de edição e guias de estilo
Segurança
- O gpt-image-1 usa as mesmas proteções de segurança da geração de imagens do 4o usada no ChatGPT
- Ele ajuda a evitar a geração de imagens nocivas e inclui metadados C2PA nas imagens geradas
- O parâmetro
moderation permite ajustar a sensibilidade da filtragem (padrão: auto, baixa sensibilidade: low)
- A OpenAI não treina modelos com dados de clientes da API, e as entradas/saídas seguem as políticas de uso da API
Política de preços
- Tokens de entrada de texto: $5 por 1 milhão de tokens
- Tokens de entrada de imagem: $10 por 1 milhão de tokens
- Tokens de saída de imagem: $40 por 1 milhão de tokens
- Dependendo da qualidade, o custo por imagem é de aproximadamente $0.02 (baixa), $0.07 (média), $0.19 (alta)
Como começar
- O gpt-image-1 está disponível globalmente na Images API, e o suporte à Responses API será adicionado em breve
- Alguns desenvolvedores talvez precisem passar por um processo de verificação da organização para usar o recurso
- É possível testar a funcionalidade no Playground e começar pela documentação de guia
1 comentários
Comentários do Hacker News
Ontem reclamaram do fato de a taxa de recusa ser muito alta em trabalhos relacionados ao governo e às forças armadas. Isso pode acabar levando contratadas a usar modelos open source desenvolvidos na CN, o que pode comprometer o trabalho
Por curiosidade, geraram o mesmo prompt para cada nível de qualidade:
Auto,low,medium,highGeraram cinco imagens no Playground. Uma usou apenas prompt de texto, e as outras quatro usaram imagens do celular. Gastaram US$ 0,85 em retratos no estilo Studio Ghibli para o chat em grupo da família, mas é caro demais para usar em um produto voltado a clientes
Ficam curiosos sobre aplicações que precisem gerar centenas ou milhares de imagens. Gostam de transformar fotos de família em estilo Ghibli, mas não precisam disso em grande escala. Sempre que usaram geração de imagens, foi para tarefas pontuais, e fazer isso na interface do ChatGPT já foi satisfatório
Em termos de preço, essa API será difícil de justificar, a menos que o valor venha de fornecer referências. A geração
mediumem 1024x1024 sai por US$ 0,04 por imagem, ficando na mesma faixa de custo de Imagen 3 e Flux 1.1 Pro. Pelos testes feitos no novo Playground, as imagens em nível medium têm qualidade inferior à dos dois modelos concorrentes e ainda levam mais de 15 segundos para serem geradas"Edição de vídeo: o invideo permite que milhões de usuários usem IA para transformar ideias em vídeos. Com a integração do gpt-image-1, a plataforma agora oferece geração de texto aprimorada, controle de edição detalhado e orientação avançada de estilo"
O uso do gpt-image-1 é cobrado por token, com preços separados para tokens de texto e de imagem
Para quem tem curiosidade, isso é baseado em LLM, não em difusão. Isso faz com que siga prompts de texto com precisão muito maior
A GoDaddy está experimentando ativamente integrar geração de imagens para permitir que clientes criem logos facilmente editáveis
Alguém tem ideia do que "tokens de imagem" representam na precificação?