10 pontos por xguru 2021-01-07 | 1 comentários | Compartilhar no WhatsApp
  • GPT-3 em sua versão com 12 bilhões de parâmetros

  • Treinado para gerar imagens a partir de descrições em texto usando um conjunto de dados de pares texto-imagem

  • Demonstra várias capacidades, como criar versões antropomorfizadas de animais e objetos, combinar de forma plausível conceitos não relacionados, renderizar texto ou aplicar transformações a imagens existentes

→ Controle de atributos: forma, cor, material, quantidade de ocorrências etc.

→ Desenho simultâneo de vários objetos e expressão de suas relações

→ Representação de perspectiva e visualização em 3D

→ Representação de estruturas internas e externas: interior de uma noz, coral-cérebro etc.

→ Inferência de detalhes conforme o contexto: expressão com mudança de estilo/configuração/tempo, como mostrar sombras adequadas à situação

→ Design de moda e interiores

→ Combinação de conceitos totalmente não relacionados: um caracol feito de harpa, uma cadeira em forma de abacate

→ Raciocínio visual zero-shot

→ Geração de imagens com base em informações geográficas/temporais

  • O DALL·E recebe 256 tokens de texto e 1024 tokens de imagem em um único fluxo e os modela de forma autorregressiva com um transformer simples do tipo decoder-only

1 comentários

 
heycalmdown 2021-01-08

Nossa, isso é impressionante. Mal posso esperar pelo dia em que isso seja incorporado ao cotidiano.