DALL·E 3

(openai.com)

1 pontos por GN⁺ 2023-09-21 | 1 comentários | Compartilhar no WhatsApp

O DALL·E 3 da OpenAI é um modelo de geração de texto para imagem voltado a usuários do ChatGPT e desenvolvedores de API, com o objetivo de criar imagens que reflitam com mais fidelidade as frases inseridas
Sistemas anteriores frequentemente deixavam passar palavras ou descrições, obrigando usuários a depender de engenharia de prompt, mas o DALL·E 3 foi projetado para produzir resultados melhores que o DALL·E 2 mesmo com o mesmo prompt
Com a integração ao ChatGPT, basta o usuário inserir uma frase simples ou um parágrafo detalhado para que o ChatGPT crie automaticamente um prompt detalhado para o DALL·E 3
Se a imagem resultante agradar, mas algum detalhe não estiver correto, é possível fazer uma solicitação de ajuste com poucas palavras, e as imagens geradas não exigem permissão separada para reimpressão, venda ou comercialização
Como mecanismos de segurança, ele recusa solicitações com nomes de figuras públicas reais e pedidos no estilo de artistas vivos, e criadores poderão no futuro fazer opt-out para que suas imagens não sejam usadas no treinamento de modelos de geração de imagem

Geração de imagens que segue o texto com mais precisão

O DALL·E 3 é disponibilizado para usuários do ChatGPT e para desenvolvedores via API
Sistemas de texto para imagem tendem a ignorar palavras ou descrições, por isso muitas vezes é necessário aprender engenharia de prompt para obter o resultado desejado
O DALL·E 3 tem como objetivo gerar imagens que sigam com mais precisão o texto fornecido pelo usuário
Ele foi projetado para oferecer melhorias perceptíveis em relação ao DALL·E 2, mesmo com o mesmo prompt

Criação e ajustes de prompts conectados ao ChatGPT

O DALL·E 3 é integrado nativamente ao ChatGPT, permitindo lidar com a ideação e o refinamento de prompts dentro do ChatGPT
O usuário pode pedir em linguagem natural a cena que deseja ver, desde uma frase simples até um parágrafo detalhado
Com base na ideia do usuário, o ChatGPT gera automaticamente um prompt detalhado e personalizado para o DALL·E 3
Quando uma imagem específica agrada, mas não é exatamente o resultado desejado, é possível pedir alterações com apenas algumas palavras

Direitos de uso das imagens geradas

As imagens criadas com o DALL·E 3 podem ser usadas pelo usuário
Assim como no DALL·E 2, não é necessária permissão separada da OpenAI para reimprimir, vender ou comercializar as imagens geradas

Mecanismos de segurança para reduzir geração de figuras públicas e vieses nocivos

O DALL·E 3 conta com mecanismos de mitigação que recusam a geração de imagens quando há solicitação direta por nomes de figuras públicas
A OpenAI trabalhou com red teams para melhorar o desempenho de segurança em áreas de risco, como geração de figuras públicas e vieses nocivos relacionados à representação visual excessiva ou insuficiente
- Red teams são especialistas de domínio que submetem o modelo a testes de estresse
- Esse trabalho é usado na avaliação de riscos e nos esforços de mitigação em áreas como propaganda e desinformação
A OpenAI também está pesquisando formas melhores de identificar se uma imagem foi gerada por IA
Ela está experimentando uma ferramenta interna chamada provenance classifier, que pode ajudar a identificar se uma imagem foi gerada pelo DALL·E 3
A OpenAI planeja usar essa ferramenta para entender melhor como imagens geradas podem ser usadas e compartilhar informações adicionais

Controle para criadores e materiais de referência

O DALL·E 3 foi projetado para recusar pedidos de imagens no estilo de artistas vivos
Criadores podem fazer opt-out para que suas imagens sejam excluídas do treinamento de futuros modelos de geração de imagem
Como materiais relacionados, estão disponíveis o artigo de pesquisa e o formulário de opt-out de imagens

1 comentários

GN⁺ 2023-09-21

Opiniões no Hacker News

Se ainda não foi lançado publicamente, entra na categoria de anúncio de um anúncio (https://hn.algolia.com/?dateRange=all&page=0&prefix=true&sor...)
Quando houver algo de fato para discutir, dá para abrir uma thread naquele momento; não há prejuízo em esperar (https://hn.algolia.com/?dateRange=all&page=0&prefix=false&so...)
- É a primeira vez que vejo um post ter a exposição reduzida de forma tão forte, mas, como este “anúncio” é tão sem graça, acho bem-vindo
Para quem tiver interesse: no ano passado, gerei cerca de 7.000 imagens com o DALL·E 2 e as publiquei em https://generrated.com/
Eu queria experimentar o que o DALL·E 2 conseguia criar e compartilhar com outras pessoas como inspiração ou ponto de partida
Como ainda não havia API, tive que gerar e salvar tudo manualmente, e também custou um bom dinheiro, mas foi divertido
Quando eu conseguir acesso ao DALL·E 3, acho que vou ter que atualizar tudo
- Se fizer isso, seria legal ver uma comparação entre imagens da v2 e da v3
- Como agora não dá para usar nomes de artistas nos prompts, acho que vai ser difícil manter aquele site com o DALL·E 3
  Edit: na verdade, parece que só não dá para usar artistas vivos nos prompts; pelo menos é isso que está escrito no texto
- Fico curioso se alguém sabe o motivo técnico específico de ele desenhar palavras tão mal
  Dá para levantar inúmeras hipóteses razoáveis a partir dos padrões que aparecem, mas, por curiosidade, eu queria saber qual é a causa real
  Observando as imagens, é particularmente interessante que ele nunca acerta o texto com exatidão e sempre erra um pouquinho. Às vezes erra feio, mas em geral chega bem perto
- Acho muito estranho como essas plataformas tornam tão difícil gerenciar imagens, baixá-las e obter o prompt completo
  Fiz um bot do Discord para o Midjourney que, com uma configuração simples, permite baixar imagens e anotá-las incluindo o máximo de informações que der para obter, como a versão: https://github.com/ernop/social-ai/tree/main/SocialAI
  Ainda assim, não é perfeito. Ele pega as informações do comando enviado, mas talvez você estivesse dependendo dos padrões da época, então, se for interpretar hoje, fica difícil reconstruir a versão, seed etc. antigas, a menos que isso tenha sido incluído no prompt
  Mesmo assim, é bom poder pelo menos guardar permanentemente uma pasta com 30 mil imagens acompanhadas dos prompts e depois executar de novo para comparar ao longo do tempo
- Ficou bem bom. No começo achei meio sem graça por haver só 5 imagens, mas há muitos exemplos de estilos e conceitos variados, então acaba sendo uma ótima fonte de inspiração
Alguns pontos que me vêm à mente: a integração com o ChatGPT é enorme. Se a integração com o ChatGPT Plus e com empresas chegar em outubro, isso pode pressionar bastante o Midjourney e várias empresas SaaS de texto-para-imagem, levando-as a se concentrar em usos NSFW
A qualidade parece semelhante à do Midjourney, mas o Midjourney também tem recursos úteis, como upscaling e geração de várias variações. Fico curioso para ver se o DALL·E 3 conseguirá acompanhar em termos de experiência do usuário
Como UI, prefiro muito mais o ChatGPT ao Discord, então isso me agrada mais
- O que pode ser realmente impressionante na integração com o ChatGPT é a capacidade de editar imagens iterativamente até chegar ao resultado desejado, do mesmo modo que refinamos texto com o ChatGPT
  Hoje, no Midjourney ou no Stable Diffusion, às vezes sai uma imagem incrível e às vezes não, e isso parece um cassino. No Stable Diffusion, dá para aplicar uma máscara e tentar de novo, mas é trabalhoso e consome muito tempo
  Se você puder dizer “esta imagem está boa, mas eu queria que houvesse só um macaco, e mude o céu para verde”, e ele receber a imagem original e a modificar, isso muda totalmente o jogo
  Provavelmente, na prática, não vai funcionar assim, mas espero que sim
- O DALL·E 2 já tinha geração de variações e inpainting muito antes do Midjourney
  Mesmo assim, vai ser muito interessante ver quem, e o quê, vence essa disputa
- Não acho que a integração com o ChatGPT vá ser tão grande assim
  O Bing Chat já usa GPT-4 internamente, e o Bing Image Creator também é integrado; internamente, ele usa algo por volta do DALL·E 2.5, mas não é bom
  É basicamente só escrever prompts de imagem por você, uma espécie de telefone sem fio inútil que repassa mais uma vez algo que você mesmo poderia escrever diretamente
- Para ser justo, o mercado NSFW é bem grande e, por si só, já é suficiente para sustentar muitas empresas
  Talvez algo como modelos de linguagem grandes treinados com Literotica seja possível
- Não sei bem. Já uso o ChatGPT para criar prompts para o Midjourney, e bastam alguns cliques
  Não sinto uma diferença enorme, especialmente porque o Midjourney é muito melhor que o DALL·E
“O DALL·E 3 foi projetado para recusar solicitações de imagens no estilo de artistas vivos”, “Criadores agora podem excluir suas imagens do treinamento de futuros modelos de geração de imagens”
Então esta versão também usou obras com direitos autorais no treinamento sem permissão
Além disso, estão jogando para os artistas o ônus de solicitar manualmente a exclusão
Será que não têm medo de que algum dia um tribunal os obrigue a pagar cada artista por cada imagem gerada?
- Eu também fui treinado assim
- Parece que estão apostando que, quando isso acontecer, o cavalo já terá fugido do estábulo
  Ou seja, o tribunal teria que obrigar milhares de empresas muito grandes e poderosas a pagar milhões de pessoas, o que na prática se torna um esforço jurídico difícil demais de sustentar
- Ainda não há prova definitiva de que “treinaram novamente com obras protegidas por direitos autorais”
  Eles não divulgaram as fontes nem a metodologia, e tudo além de “treinamento” e “direitos autorais” é uma incógnita. Se fosse diferente, eles já estariam pagando royalties
  Podem ter usado os resultados da versão 2 anterior junto com prompts criados pelo GPT, e feito correções humanas para alinhar às imagens geradas
  Também podem ter analisado imagens novas e existentes com visão computacional e, quando a imagem tivesse novas características, acrescentado isso ao prompt e treinado novamente
- Artistas vivos deveriam poder solicitar imagens em seu próprio estilo
- O fato de isso ser “permitido” no sistema geral de direitos autorais e agora entrar em um produto comercial para o público é completamente insano
  Pelo estado dos tribunais, também não há esperança de que isso seja revertido
  É bem provável que façam acordos de bastidor com grandes detentores de propriedade intelectual, como a Disney, para não cutucar a onça, enquanto deixam os pequenos sem capacidade de se defender — ou, mais precisamente, já pobres e ainda com menos dinheiro
Parece que pode ser uma ameaça real ao Midjourney, mas acho que não vai deslocar o Stable Diffusion
A aderência ao prompt parece que será excelente, mas a falta de customização e as restrições de estilos artísticos devem reduzir bastante a utilidade
As pessoas provavelmente vão criar imagens-base de composição com o DALL·E 3 e depois rodar estilo, upscaling e detalhes no Stable Diffusion
- Fico curioso por que você acha que não é uma ameaça ao Stable Diffusion
  Vejo muito mais imagens de altíssima qualidade, difíceis de distinguir de algo gerado, no Midjourney do que no Stable Diffusion
- As restrições de estilo artístico, francamente, me fazem torcer o nariz. Não me interessam muito
  A filtragem do Midjourney já era irritante o bastante, e o ChatGPT recusando sem sentido pedidos simples porque poderiam ser mal interpretados também era infinitamente irritante
  Se juntarem os dois e ainda adicionarem explicitamente filtragem de estilos de artistas, vou simplesmente passar longe
  Só para deixar claro, não estou fazendo NSFW no Midjourney. Estou falando de situações em que eu queria “uma foto de banco de imagens de uma pessoa cortando queijo sobre uma bancada”, mas não dava para usar palavras como “cutting” ou “slicing” porque poderiam ser usadas para criar imagens gore
É engraçado dizerem “Criadores agora podem excluir suas imagens do treinamento de futuros modelos de geração de imagens” e o link ser um formulário para enviar uma imagem por vez
Dizem que é possível bloquear o GPTBot no site, mas também há a questão do que acontece se o bot já tiver raspado as imagens
De todo modo, outra pessoa também pode publicar minha foto em outro site que não bloqueie o GPTBot
Tenho criado muitas imagens no Midjourney por causa de um projeto recente, e percebi de novo algo que os apocalípticos da arte por IA parecem não entender: a importância da curadoria
Basta passar os olhos pelo /r/Midjourney ou pelas imagens recomendadas no link do DALL·E acima para ver como os “resultados padrão” dos geradores são tediosos
Criar imagens pode ficar mais fácil, mas ainda é preciso sensibilidade artística e habilidade para selecionar quais imagens são atraentes
No panorama geral, acho que a arte de ilustração vai se aproximar mais de uma atividade de curadoria, e a capacidade de filtrar grandes volumes de imagens será uma habilidade central
- Será algo parecido com fotografia?
- Não conheço muito bem ferramentas de texto para imagem, mas não dá para fornecer uma imagem de referência como entrada?
  Se você puder criar a imagem de referência a ser usada como entrada, acho que o resultado melhora. Quanto melhor a entrada, melhor a saída
  No campo comercial, parece uma situação em que artistas que sabem usar bem IA vão sair na frente
- Não sei quanto tempo essa etapa vai durar, e acho que ninguém deveria depender dela
- Acho que também dá para treinar uma IA que filtre com base em preferências humanas
  Mesmo assim, ainda sobra espaço para um artista com gosto e talento técnico manipular as imagens para ficarem mais próximas do ideal curado
  Como nos fluxos de trabalho atuais de Photoshop baseados em Stable Diffusion, em que a geração cria a base; quando o fluxo amadurecer, a entrada manual deve voltar a aumentar
  Por exemplo, usar o ControlNet para fixar uma pose ou disposição específica e bloquear a composição, deixar a IA preencher 90%, e então uma pessoa refinar os 10% finais a gosto e iterar
Pelo item “O DALL·E 3 foi construído nativamente sobre o ChatGPT”, pela integração estreita entre ChatGPT e geração de imagens, e pelo fato de não ter saído um artigo de pesquisa junto com o anúncio, suspeito fortemente que seja um piloto das capacidades multimodais do GPT-4 e que provavelmente rode em uma infraestrutura parecida
- O GPT-4 só consegue fazer texto-para-texto e imagem-para-texto, e não consegue gerar imagens diretamente
  Então eles simplesmente vão usar uma chamada de API. Não há nada de especial, e o Bing faz a mesma coisa
- As imagens que o GPT-4 criou até agora não estavam nesse nível, mas pode ser uma versão mais nova
  Referência: https://arxiv.org/pdf/2303.12712.pdf
Eles removeram o material de “treinamento” com direitos autorais, ou ainda estão dizendo que “aprenderam” com o trabalho duro das pessoas sem consentimento e vendendo isso sem permissão?
- No fim do anúncio, a formulação é bem cautelosa: “O DALL·E 3 foi projetado para recusar solicitações de imagens no estilo de artistas vivos. Criadores agora podem excluir suas imagens do treinamento de futuros modelos de geração de imagens”
  Ou seja, ele ainda se apoia no trabalho duro das pessoas, mas o lado bom é que dá para solicitar a exclusão para que seu trabalho não vire alimento do DALL·E 4
- Legalmente, é bem provável que isso não seja um grande problema
  O ponto central é se conseguiriam argumentar com sucesso que a IA aprende como humanos, então saídas que não sejam cópias diretas de obras existentes são novas criações
  Isso se aplica de forma parecida mesmo quando a IA replica o estilo artístico de algum autor. É semelhante a um humano passar o fim de semana olhando as obras de um artista e depois pintar uma encomenda no mesmo estilo; como estilo artístico não pode ser protegido por copyright, é completamente legal
  Claro que a Adobe gostaria que fosse possível[0]
  0: https://twitter.com/UltraTerm/status/1679294173793628161
- Não removeram. No longo prazo, isso pode ser um dos motivos para a IA da Adobe vencer
  Outra coisa em que continuo pensando é se esse tipo de produção gerada por IA não poderia causar um colapso ao estilo da indústria de games
  Se houver excesso de conteúdo de IA muito divulgado, mas sem sentido e de baixo valor, os consumidores podem perder o interesse, parar de gastar em setores como livros, jogos, filmes, arte digital e música, e esses mercados podem desmoronar
- A OpenAI licencia dados de imagens da Shutterstock, então é possível que tenha treinado tudo com imagens licenciadas
  https://investor.shutterstock.com/news-releases/news-release...
  Como sempre, seria bom haver mais transparência sobre os dados de treinamento
- Sempre achei ruim que artistas humanos “treinem” olhando obras de outras pessoas sem permissão, baixem isso para seus cérebros de carne sem autorização e então treinem suas redes neurais orgânicas com essa arte
  Não deveriam fazer isso. Do ponto de vista maximalista de copyright, isso é violação de direitos autorais
Começou mais uma rodada de competição
Algumas pessoas parecem ter uma forte antipatia pela OpenAI, mas, no mínimo, a OpenAI é realmente muito boa em se tornar o ponto de referência a ser superado em determinados campos
E, ao fazer isso, parece empurrar a área inteira bastante para a frente
- O motivo de eu não gostar da OpenAI é que ela foi criada em nome da segurança em IA, mas a coisa mais contrária à segurança é estimular uma corrida por capacidades de IA, e é exatamente isso que a OpenAI vem fazendo repetidamente
- Não dá para esquecer que OpenAI em breve significa Microsoft
  Pessoas mais antigas como eu lembram das coisas que a Microsoft fez nos anos 90. Se hoje estivesse à frente em alguma área, faria a mesma coisa; e, nos bastidores, às vezes ainda faz
  Não gosto do FB nem do Zuckerberg, mas liberar o LLAMA de graça foi uma boa iniciativa
  Espero que haja outro vazamento dentro da OpenAI e que possamos ter acesso a tudo

DALL·E 3

Geração de imagens que segue o texto com mais precisão

Criação e ajustes de prompts conectados ao ChatGPT

Direitos de uso das imagens geradas

Mecanismos de segurança para reduzir geração de figuras públicas e vieses nocivos

Controle para criadores e materiais de referência

Leituras relacionadas

1 comentários

Opiniões no Hacker News