- "ConvNets Match Vision Transformers at Scale"
- Há uma percepção generalizada de que ConvNets têm bom desempenho em conjuntos de dados de pequeno e médio porte, mas ficam atrás dos transformers, especialmente dos Vision Transformers (ViT), em conjuntos de dados extremamente grandes
- A pesquisa mais recente da DeepMind desafia essa noção
- Acreditava-se que a escalabilidade dos transformers superava a dos ConvNets, mas faltavam evidências para sustentar isso
- Os autores usaram a família NFNet (Normalizer-Free ResNets) para aumentar gradualmente a largura/profundidade da rede
- Pré-treinamento no JFT-4B e fine-tuning no ImageNet usando SAM (Sharpness-Aware Minimization)
- Como resultado, mostrou desempenho equivalente aos modelos ViT
- Todos os modelos continuaram melhorando de forma consistente à medida que mais capacidade computacional foi adicionada
Ainda não há comentários.