5 pontos por xguru 2023-06-16 | 1 comentários | Compartilhar no WhatsApp
  • Aprende criando um modelo interno que compara representações abstratas de imagens, em vez de comparar os próprios pixels
  • Oferece desempenho robusto em tarefas de visão computacional e é muito mais eficiente. Pode ser aplicado em diversos contextos sem necessidade de amplo fine-tuning
  • É possível treinar um modelo visual transformer com 632M de parâmetros em até 72 horas usando apenas 16 GPUs A100
    • Alcança desempenho SOTA em classificação low-shot no ImageNet com apenas 12 exemplos rotulados por classe
  • O artigo será apresentado na CVPR 2023, e o código de treinamento e os checkpoints do modelo também serão disponibilizados como open source
  • Image Joint Embedding Predictive Architecture

1 comentários

 
libner 2023-06-16

Parece que, por causa de um erro de digitação, "amplo" não foi escrito corretamente.