Vision Transformers precisam de registradores
(openreview.net)Vision Transformers precisam de registradores
- Autores: Timothée Darcet, Maxime Oquab, Julien Mairal, Piotr Bojanowski
- Apresentação oral na ICLR 2024
- Publicado em 16 de janeiro de 2024, revisão final em 12 de abril de 2024
Resumo
- Descobre e caracteriza artefatos nos mapas de características de modelos Vision Transformer (ViT) treinados com aprendizado supervisionado e autossupervisionado
- Durante a inferência, tokens de alta norma que aparecem principalmente em regiões de fundo com pouca informação correspondem a artefatos em que esses tokens são reutilizados para cálculos internos
- Propõe uma solução simples, mas eficaz, de fornecer tokens adicionais (chamados de "registradores") à sequência de entrada do ViT
- Resolve completamente esse problema tanto em modelos supervisionados quanto autossupervisionados, estabelece um novo SOTA para modelos visuais autossupervisionados em tarefas de predição visual densa, viabiliza métodos de detecção de objetos com modelos maiores e, acima de tudo, leva a mapas de características e de atenção mais suaves para o processamento visual downstream
Experimentos e análise
- A investigação dos artefatos é muito original e minuciosa. Os gráficos e explicações são muito perspicazes, e os experimentos são abrangentes
- A inclusão proposta de tokens de registrador é muito simples e elegante, além de fornecer máscaras de atenção mais interpretáveis
- A declaração sobre as limitações é apreciada
- O artigo é fácil de acompanhar, e as visualizações ajudam a fornecer intuição
Melhorias
- Faltam experimentos mostrando que o comportamento dos tokens outliers foi eliminado com a adição dos tokens de registrador. Seria interessante verificar se eles passam a ser transferidos para os tokens de imagem/registrador no modelo proposto
- A discussão sobre o desempenho do modelo em detecção não supervisionada de objetos é limitada e não condiz com os resultados
- Embora os ganhos de DINOv2+reg sejam impressionantes, é necessário mais debate ou exemplos qualitativos sobre por que isso não se alinha com o DINO
- Foi dito que os registradores melhoram o desempenho de detecção não supervisionada de objetos em todos os modelos, mas o desempenho do OpenCLIP na verdade piora
Opinião do GN⁺
-
Além dos registradores, pode haver outras formas de reduzir a redundância limitada no nível de patch. Fico curioso se um efeito semelhante é observado em outros modelos autossupervisionados, como o MAE, em que a reconstrução no nível de patch deveria aliviar a redundância das representações
-
Parece necessária uma explicação adicional para a queda de desempenho do OpenCLIP. Além disso, também falta explicar por que o desempenho do LOST com DINO é melhor do que com DINOv2
-
É surpreendente que o DINOv2 apresente esse comportamento usando um objetivo de modelagem densa de máscara-imagem. Fico curioso por que o objetivo com imagem mascarada não conseguiu impedir esse comportamento, apesar de exigir preservação de informação nas características dos patches
-
Parece necessário distinguir o viés do próprio conjunto de dados do viés dos rótulos. O SSL sofre menos com viés de rótulos, mas vieses decorrentes da fonte dos dados, como Instagram vs iNaturalist, ainda podem existir
-
Foi sugerido que tokens outliers aparecem em modelos maiores, mas isso não ocorre nos modelos base de CLIP/DEIT. Seria bom incluir um comentário sobre isso no fim da seção 2.2
-
Fico curioso sobre como o desempenho em detecção não supervisionada de objetos do modelo DINO com registradores se compara a outros modelos com capacidades semelhantes, como o CLIP da OpenAI ou o LiT do Google
-
Seria interessante analisar se o fenômeno de tokens outliers observado em modelos baseados em ViT também aparece em modelos baseados em CNN, ou se é algo específico da arquitetura Transformer
-
Em aplicações reais, seria útil ter diretrizes sobre se o uso de tokens de registrador pode causar perda de desempenho devido ao aumento do custo computacional e como determinar o número ideal de registradores
Ainda não há comentários.