6 pontos por xguru 2023-10-31 | Ainda não há comentários. | Compartilhar no WhatsApp
  • "ConvNets Match Vision Transformers at Scale"
  • Há uma percepção generalizada de que ConvNets têm bom desempenho em conjuntos de dados de pequeno e médio porte, mas ficam atrás dos transformers, especialmente dos Vision Transformers (ViT), em conjuntos de dados extremamente grandes
  • A pesquisa mais recente da DeepMind desafia essa noção
    • Acreditava-se que a escalabilidade dos transformers superava a dos ConvNets, mas faltavam evidências para sustentar isso
    • Os autores usaram a família NFNet (Normalizer-Free ResNets) para aumentar gradualmente a largura/profundidade da rede
    • Pré-treinamento no JFT-4B e fine-tuning no ImageNet usando SAM (Sharpness-Aware Minimization)
    • Como resultado, mostrou desempenho equivalente aos modelos ViT
    • Todos os modelos continuaram melhorando de forma consistente à medida que mais capacidade computacional foi adicionada

Ainda não há comentários.

Ainda não há comentários.