5 pontos por xguru 2022-04-21 | 1 comentários | Compartilhar no WhatsApp
  1. Conexão entre texto e significado visual (semantics)
    → Uso do modelo CLIP: aprende, a partir de centenas de milhões de imagens e legendas relacionadas, o quanto uma determinada legenda está relacionada a uma imagem
  2. Geração de imagem a partir do significado visual
    → Uso do modelo GLIDE: aprende um método para inverter o processo de codificação de imagem. Utiliza um modelo de difusão (Diffusion)
  3. Mapeamento do significado textual para o significado visual correspondente
    → Uso do modelo Prior: mapeia a codificação de texto da legenda de imagem para a codificação de imagem da imagem correspondente
  4. Integração de tudo
    → O codificador de texto do CLIP mapeia a descrição da imagem para o espaço de representação
    → O Diffusion Prior faz o mapeamento da codificação de texto do CLIP para a codificação de imagem do CLIP relacionada
    → O modelo gerador GLIDE modificado usa difusão reversa para mapear do espaço de representação para o espaço da imagem e gerar inúmeras imagens possíveis que transmitem a informação semântica contida na legenda fornecida

3 pontos importantes

  1. O DALL-E 2 mostra o poder dos modelos de difusão
  2. Destaca a necessidade e a força de usar linguagem natural como meio para treinar modelos de deep learning de ponta
  3. Reafirma que os Transformers ocupam a posição de destaque entre os modelos treinados em conjuntos de dados em escala web