1 pontos por GN⁺ 2025-03-16 | Ainda não há comentários. | Compartilhar no WhatsApp

Resumo

  • Em redes neurais modernas, as camadas de normalização têm sido consideradas essenciais.
  • Este estudo mostra que é possível alcançar desempenho igual ou melhor mesmo sem normalização.
  • Apresenta uma técnica simples chamada Dynamic Tanh (DyT), que pode substituir as camadas de normalização.
  • O DyT, em geral, apresenta desempenho equivalente ou superior ao de modelos normalizados, mesmo sem ajuste de hiperparâmetros.
  • A eficácia do DyT foi validada em diversos cenários, o que leva a repensar a indispensabilidade das camadas de normalização.

Implementação

  • O módulo DyT pode ser implementado com apenas algumas linhas de código em PyTorch.

Principais descobertas

  • A normalização de camada funciona como uma função tanh escalada.
  • Nas camadas iniciais, ela é principalmente linear, mas nas camadas profundas apresenta a curva em S característica da função tanh.

Avaliação

  • A eficácia e a generalidade do DyT foram avaliadas em diversas arquiteturas e tarefas.
  • Em todos os casos, os Transformers com DyT apresentaram desempenho semelhante ou superior ao dos modelos normalizados.

Materiais

  • Mais detalhes sobre a pesquisa podem ser consultados por meio do download do artigo.
  • Os detalhes de implementação podem ser conferidos no repositório do GitHub.

Ainda não há comentários.

Ainda não há comentários.