O contra-ataque do império da convolução

xguru · 2023-10-31T10:03:01+09:00

"ConvNets Match Vision Transformers at Scale" Há uma percepção generalizada de que ConvNets têm bom desempenho em conjuntos de dados de pequeno e médio porte, mas ficam atrás dos transformers, especialmente dos Vision Transformers (ViT), em conjuntos de dados extremamente grandes A pesquisa mais recente da DeepMind desafia essa noção Acreditava-se que a escalabilidade dos transformers superava a dos ConvNets, mas faltavam evidências para sustentar isso Os autores usaram a família NFNet (Normalizer-Free ResNets) para aumentar gradualmente a largura/profundidade da rede Pré-treinamento no JFT-4B e fine-tuning no ImageNet usando SAM (Sharpness-Aware Minimization) Como resultado, mostrou desempenho equivalente aos modelos ViT Todos os modelos continuaram melhorando de forma consistente à medida que mais capacidade computacional foi adicionada

(substack.com/gonzoml)

6 pontos por xguru 2023-10-31 | Ainda não há comentários. | Compartilhar no WhatsApp

"ConvNets Match Vision Transformers at Scale"
Há uma percepção generalizada de que ConvNets têm bom desempenho em conjuntos de dados de pequeno e médio porte, mas ficam atrás dos transformers, especialmente dos Vision Transformers (ViT), em conjuntos de dados extremamente grandes
A pesquisa mais recente da DeepMind desafia essa noção
- Acreditava-se que a escalabilidade dos transformers superava a dos ConvNets, mas faltavam evidências para sustentar isso
- Os autores usaram a família NFNet (Normalizer-Free ResNets) para aumentar gradualmente a largura/profundidade da rede
- Pré-treinamento no JFT-4B e fine-tuning no ImageNet usando SAM (Sharpness-Aware Minimization)
- Como resultado, mostrou desempenho equivalente aos modelos ViT
- Todos os modelos continuaram melhorando de forma consistente à medida que mais capacidade computacional foi adicionada

O contra-ataque do império da convolução

Leituras relacionadas

Ainda não há comentários.