DALL·E: gerando imagens a partir de texto
(openai.com)-
GPT-3 em sua versão com 12 bilhões de parâmetros
-
Treinado para gerar imagens a partir de descrições em texto usando um conjunto de dados de pares texto-imagem
-
Demonstra várias capacidades, como criar versões antropomorfizadas de animais e objetos, combinar de forma plausível conceitos não relacionados, renderizar texto ou aplicar transformações a imagens existentes
→ Controle de atributos: forma, cor, material, quantidade de ocorrências etc.
→ Desenho simultâneo de vários objetos e expressão de suas relações
→ Representação de perspectiva e visualização em 3D
→ Representação de estruturas internas e externas: interior de uma noz, coral-cérebro etc.
→ Inferência de detalhes conforme o contexto: expressão com mudança de estilo/configuração/tempo, como mostrar sombras adequadas à situação
→ Design de moda e interiores
→ Combinação de conceitos totalmente não relacionados: um caracol feito de harpa, uma cadeira em forma de abacate
→ Raciocínio visual zero-shot
→ Geração de imagens com base em informações geográficas/temporais
- O DALL·E recebe 256 tokens de texto e 1024 tokens de imagem em um único fluxo e os modela de forma autorregressiva com um transformer simples do tipo decoder-only
1 comentários
Nossa, isso é impressionante. Mal posso esperar pelo dia em que isso seja incorporado ao cotidiano.