Resumo
- Em redes neurais modernas, as camadas de normalização têm sido consideradas essenciais.
- Este estudo mostra que é possível alcançar desempenho igual ou melhor mesmo sem normalização.
- Apresenta uma técnica simples chamada Dynamic Tanh (DyT), que pode substituir as camadas de normalização.
- O DyT, em geral, apresenta desempenho equivalente ou superior ao de modelos normalizados, mesmo sem ajuste de hiperparâmetros.
- A eficácia do DyT foi validada em diversos cenários, o que leva a repensar a indispensabilidade das camadas de normalização.
Implementação
- O módulo DyT pode ser implementado com apenas algumas linhas de código em PyTorch.
Principais descobertas
- A normalização de camada funciona como uma função
tanh escalada.
- Nas camadas iniciais, ela é principalmente linear, mas nas camadas profundas apresenta a curva em S característica da função
tanh.
Avaliação
- A eficácia e a generalidade do DyT foram avaliadas em diversas arquiteturas e tarefas.
- Em todos os casos, os Transformers com DyT apresentaram desempenho semelhante ou superior ao dos modelos normalizados.
Materiais
- Mais detalhes sobre a pesquisa podem ser consultados por meio do download do artigo.
- Os detalhes de implementação podem ser conferidos no repositório do GitHub.
Ainda não há comentários.