DALL·E 3
(openai.com)- O DALL·E 3 da OpenAI é um modelo de geração de texto para imagem voltado a usuários do ChatGPT e desenvolvedores de API, com o objetivo de criar imagens que reflitam com mais fidelidade as frases inseridas
- Sistemas anteriores frequentemente deixavam passar palavras ou descrições, obrigando usuários a depender de engenharia de prompt, mas o DALL·E 3 foi projetado para produzir resultados melhores que o DALL·E 2 mesmo com o mesmo prompt
- Com a integração ao ChatGPT, basta o usuário inserir uma frase simples ou um parágrafo detalhado para que o ChatGPT crie automaticamente um prompt detalhado para o DALL·E 3
- Se a imagem resultante agradar, mas algum detalhe não estiver correto, é possível fazer uma solicitação de ajuste com poucas palavras, e as imagens geradas não exigem permissão separada para reimpressão, venda ou comercialização
- Como mecanismos de segurança, ele recusa solicitações com nomes de figuras públicas reais e pedidos no estilo de artistas vivos, e criadores poderão no futuro fazer opt-out para que suas imagens não sejam usadas no treinamento de modelos de geração de imagem
Geração de imagens que segue o texto com mais precisão
- O DALL·E 3 é disponibilizado para usuários do ChatGPT e para desenvolvedores via API
- Sistemas de texto para imagem tendem a ignorar palavras ou descrições, por isso muitas vezes é necessário aprender engenharia de prompt para obter o resultado desejado
- O DALL·E 3 tem como objetivo gerar imagens que sigam com mais precisão o texto fornecido pelo usuário
- Ele foi projetado para oferecer melhorias perceptíveis em relação ao DALL·E 2, mesmo com o mesmo prompt
Criação e ajustes de prompts conectados ao ChatGPT
- O DALL·E 3 é integrado nativamente ao ChatGPT, permitindo lidar com a ideação e o refinamento de prompts dentro do ChatGPT
- O usuário pode pedir em linguagem natural a cena que deseja ver, desde uma frase simples até um parágrafo detalhado
- Com base na ideia do usuário, o ChatGPT gera automaticamente um prompt detalhado e personalizado para o DALL·E 3
- Quando uma imagem específica agrada, mas não é exatamente o resultado desejado, é possível pedir alterações com apenas algumas palavras
Direitos de uso das imagens geradas
- As imagens criadas com o DALL·E 3 podem ser usadas pelo usuário
- Assim como no DALL·E 2, não é necessária permissão separada da OpenAI para reimprimir, vender ou comercializar as imagens geradas
Mecanismos de segurança para reduzir geração de figuras públicas e vieses nocivos
- O DALL·E 3 conta com mecanismos de mitigação que recusam a geração de imagens quando há solicitação direta por nomes de figuras públicas
- A OpenAI trabalhou com red teams para melhorar o desempenho de segurança em áreas de risco, como geração de figuras públicas e vieses nocivos relacionados à representação visual excessiva ou insuficiente
- Red teams são especialistas de domínio que submetem o modelo a testes de estresse
- Esse trabalho é usado na avaliação de riscos e nos esforços de mitigação em áreas como propaganda e desinformação
- A OpenAI também está pesquisando formas melhores de identificar se uma imagem foi gerada por IA
- Ela está experimentando uma ferramenta interna chamada provenance classifier, que pode ajudar a identificar se uma imagem foi gerada pelo DALL·E 3
- A OpenAI planeja usar essa ferramenta para entender melhor como imagens geradas podem ser usadas e compartilhar informações adicionais
Controle para criadores e materiais de referência
- O DALL·E 3 foi projetado para recusar pedidos de imagens no estilo de artistas vivos
- Criadores podem fazer opt-out para que suas imagens sejam excluídas do treinamento de futuros modelos de geração de imagem
- Como materiais relacionados, estão disponíveis o artigo de pesquisa e o formulário de opt-out de imagens
1 comentários
Opiniões no Hacker News
Se ainda não foi lançado publicamente, entra na categoria de anúncio de um anúncio (https://hn.algolia.com/?dateRange=all&page=0&prefix=true&sor...)
Quando houver algo de fato para discutir, dá para abrir uma thread naquele momento; não há prejuízo em esperar (https://hn.algolia.com/?dateRange=all&page=0&prefix=false&so...)
Para quem tiver interesse: no ano passado, gerei cerca de 7.000 imagens com o DALL·E 2 e as publiquei em https://generrated.com/
Eu queria experimentar o que o DALL·E 2 conseguia criar e compartilhar com outras pessoas como inspiração ou ponto de partida
Como ainda não havia API, tive que gerar e salvar tudo manualmente, e também custou um bom dinheiro, mas foi divertido
Quando eu conseguir acesso ao DALL·E 3, acho que vou ter que atualizar tudo
Edit: na verdade, parece que só não dá para usar artistas vivos nos prompts; pelo menos é isso que está escrito no texto
Dá para levantar inúmeras hipóteses razoáveis a partir dos padrões que aparecem, mas, por curiosidade, eu queria saber qual é a causa real
Observando as imagens, é particularmente interessante que ele nunca acerta o texto com exatidão e sempre erra um pouquinho. Às vezes erra feio, mas em geral chega bem perto
Fiz um bot do Discord para o Midjourney que, com uma configuração simples, permite baixar imagens e anotá-las incluindo o máximo de informações que der para obter, como a versão: https://github.com/ernop/social-ai/tree/main/SocialAI
Ainda assim, não é perfeito. Ele pega as informações do comando enviado, mas talvez você estivesse dependendo dos padrões da época, então, se for interpretar hoje, fica difícil reconstruir a versão, seed etc. antigas, a menos que isso tenha sido incluído no prompt
Mesmo assim, é bom poder pelo menos guardar permanentemente uma pasta com 30 mil imagens acompanhadas dos prompts e depois executar de novo para comparar ao longo do tempo
Alguns pontos que me vêm à mente: a integração com o ChatGPT é enorme. Se a integração com o ChatGPT Plus e com empresas chegar em outubro, isso pode pressionar bastante o Midjourney e várias empresas SaaS de texto-para-imagem, levando-as a se concentrar em usos NSFW
A qualidade parece semelhante à do Midjourney, mas o Midjourney também tem recursos úteis, como upscaling e geração de várias variações. Fico curioso para ver se o DALL·E 3 conseguirá acompanhar em termos de experiência do usuário
Como UI, prefiro muito mais o ChatGPT ao Discord, então isso me agrada mais
Hoje, no Midjourney ou no Stable Diffusion, às vezes sai uma imagem incrível e às vezes não, e isso parece um cassino. No Stable Diffusion, dá para aplicar uma máscara e tentar de novo, mas é trabalhoso e consome muito tempo
Se você puder dizer “esta imagem está boa, mas eu queria que houvesse só um macaco, e mude o céu para verde”, e ele receber a imagem original e a modificar, isso muda totalmente o jogo
Provavelmente, na prática, não vai funcionar assim, mas espero que sim
Mesmo assim, vai ser muito interessante ver quem, e o quê, vence essa disputa
O Bing Chat já usa GPT-4 internamente, e o Bing Image Creator também é integrado; internamente, ele usa algo por volta do DALL·E 2.5, mas não é bom
É basicamente só escrever prompts de imagem por você, uma espécie de telefone sem fio inútil que repassa mais uma vez algo que você mesmo poderia escrever diretamente
Talvez algo como modelos de linguagem grandes treinados com Literotica seja possível
Não sinto uma diferença enorme, especialmente porque o Midjourney é muito melhor que o DALL·E
“O DALL·E 3 foi projetado para recusar solicitações de imagens no estilo de artistas vivos”, “Criadores agora podem excluir suas imagens do treinamento de futuros modelos de geração de imagens”
Então esta versão também usou obras com direitos autorais no treinamento sem permissão
Além disso, estão jogando para os artistas o ônus de solicitar manualmente a exclusão
Será que não têm medo de que algum dia um tribunal os obrigue a pagar cada artista por cada imagem gerada?
Ou seja, o tribunal teria que obrigar milhares de empresas muito grandes e poderosas a pagar milhões de pessoas, o que na prática se torna um esforço jurídico difícil demais de sustentar
Eles não divulgaram as fontes nem a metodologia, e tudo além de “treinamento” e “direitos autorais” é uma incógnita. Se fosse diferente, eles já estariam pagando royalties
Podem ter usado os resultados da versão 2 anterior junto com prompts criados pelo GPT, e feito correções humanas para alinhar às imagens geradas
Também podem ter analisado imagens novas e existentes com visão computacional e, quando a imagem tivesse novas características, acrescentado isso ao prompt e treinado novamente
Pelo estado dos tribunais, também não há esperança de que isso seja revertido
É bem provável que façam acordos de bastidor com grandes detentores de propriedade intelectual, como a Disney, para não cutucar a onça, enquanto deixam os pequenos sem capacidade de se defender — ou, mais precisamente, já pobres e ainda com menos dinheiro
Parece que pode ser uma ameaça real ao Midjourney, mas acho que não vai deslocar o Stable Diffusion
A aderência ao prompt parece que será excelente, mas a falta de customização e as restrições de estilos artísticos devem reduzir bastante a utilidade
As pessoas provavelmente vão criar imagens-base de composição com o DALL·E 3 e depois rodar estilo, upscaling e detalhes no Stable Diffusion
Vejo muito mais imagens de altíssima qualidade, difíceis de distinguir de algo gerado, no Midjourney do que no Stable Diffusion
A filtragem do Midjourney já era irritante o bastante, e o ChatGPT recusando sem sentido pedidos simples porque poderiam ser mal interpretados também era infinitamente irritante
Se juntarem os dois e ainda adicionarem explicitamente filtragem de estilos de artistas, vou simplesmente passar longe
Só para deixar claro, não estou fazendo NSFW no Midjourney. Estou falando de situações em que eu queria “uma foto de banco de imagens de uma pessoa cortando queijo sobre uma bancada”, mas não dava para usar palavras como “cutting” ou “slicing” porque poderiam ser usadas para criar imagens gore
É engraçado dizerem “Criadores agora podem excluir suas imagens do treinamento de futuros modelos de geração de imagens” e o link ser um formulário para enviar uma imagem por vez
Dizem que é possível bloquear o GPTBot no site, mas também há a questão do que acontece se o bot já tiver raspado as imagens
De todo modo, outra pessoa também pode publicar minha foto em outro site que não bloqueie o GPTBot
Tenho criado muitas imagens no Midjourney por causa de um projeto recente, e percebi de novo algo que os apocalípticos da arte por IA parecem não entender: a importância da curadoria
Basta passar os olhos pelo /r/Midjourney ou pelas imagens recomendadas no link do DALL·E acima para ver como os “resultados padrão” dos geradores são tediosos
Criar imagens pode ficar mais fácil, mas ainda é preciso sensibilidade artística e habilidade para selecionar quais imagens são atraentes
No panorama geral, acho que a arte de ilustração vai se aproximar mais de uma atividade de curadoria, e a capacidade de filtrar grandes volumes de imagens será uma habilidade central
Se você puder criar a imagem de referência a ser usada como entrada, acho que o resultado melhora. Quanto melhor a entrada, melhor a saída
No campo comercial, parece uma situação em que artistas que sabem usar bem IA vão sair na frente
Mesmo assim, ainda sobra espaço para um artista com gosto e talento técnico manipular as imagens para ficarem mais próximas do ideal curado
Como nos fluxos de trabalho atuais de Photoshop baseados em Stable Diffusion, em que a geração cria a base; quando o fluxo amadurecer, a entrada manual deve voltar a aumentar
Por exemplo, usar o ControlNet para fixar uma pose ou disposição específica e bloquear a composição, deixar a IA preencher 90%, e então uma pessoa refinar os 10% finais a gosto e iterar
Pelo item “O DALL·E 3 foi construído nativamente sobre o ChatGPT”, pela integração estreita entre ChatGPT e geração de imagens, e pelo fato de não ter saído um artigo de pesquisa junto com o anúncio, suspeito fortemente que seja um piloto das capacidades multimodais do GPT-4 e que provavelmente rode em uma infraestrutura parecida
Então eles simplesmente vão usar uma chamada de API. Não há nada de especial, e o Bing faz a mesma coisa
Referência: https://arxiv.org/pdf/2303.12712.pdf
Eles removeram o material de “treinamento” com direitos autorais, ou ainda estão dizendo que “aprenderam” com o trabalho duro das pessoas sem consentimento e vendendo isso sem permissão?
Ou seja, ele ainda se apoia no trabalho duro das pessoas, mas o lado bom é que dá para solicitar a exclusão para que seu trabalho não vire alimento do DALL·E 4
O ponto central é se conseguiriam argumentar com sucesso que a IA aprende como humanos, então saídas que não sejam cópias diretas de obras existentes são novas criações
Isso se aplica de forma parecida mesmo quando a IA replica o estilo artístico de algum autor. É semelhante a um humano passar o fim de semana olhando as obras de um artista e depois pintar uma encomenda no mesmo estilo; como estilo artístico não pode ser protegido por copyright, é completamente legal
Claro que a Adobe gostaria que fosse possível[0]
0: https://twitter.com/UltraTerm/status/1679294173793628161
Outra coisa em que continuo pensando é se esse tipo de produção gerada por IA não poderia causar um colapso ao estilo da indústria de games
Se houver excesso de conteúdo de IA muito divulgado, mas sem sentido e de baixo valor, os consumidores podem perder o interesse, parar de gastar em setores como livros, jogos, filmes, arte digital e música, e esses mercados podem desmoronar
https://investor.shutterstock.com/news-releases/news-release...
Como sempre, seria bom haver mais transparência sobre os dados de treinamento
Não deveriam fazer isso. Do ponto de vista maximalista de copyright, isso é violação de direitos autorais
Começou mais uma rodada de competição
Algumas pessoas parecem ter uma forte antipatia pela OpenAI, mas, no mínimo, a OpenAI é realmente muito boa em se tornar o ponto de referência a ser superado em determinados campos
E, ao fazer isso, parece empurrar a área inteira bastante para a frente
Pessoas mais antigas como eu lembram das coisas que a Microsoft fez nos anos 90. Se hoje estivesse à frente em alguma área, faria a mesma coisa; e, nos bastidores, às vezes ainda faz
Não gosto do FB nem do Zuckerberg, mas liberar o LLAMA de graça foi uma boa iniciativa
Espero que haja outro vazamento dentro da OpenAI e que possamos ter acesso a tudo