- Aprende criando um modelo interno que compara representações abstratas de imagens, em vez de comparar os próprios pixels
- Oferece desempenho robusto em tarefas de visão computacional e é muito mais eficiente. Pode ser aplicado em diversos contextos sem necessidade de amplo fine-tuning
- É possível treinar um modelo visual transformer com 632M de parâmetros em até 72 horas usando apenas 16 GPUs A100
- Alcança desempenho SOTA em classificação low-shot no ImageNet com apenas 12 exemplos rotulados por classe
- O artigo será apresentado na CVPR 2023, e o código de treinamento e os checkpoints do modelo também serão disponibilizados como open source
- Image Joint Embedding Predictive Architecture
1 comentários
Parece que, por causa de um erro de digitação, "amplo" não foi escrito corretamente.