1 pontos por GN⁺ 2024-10-04 | Ainda não há comentários. | Compartilhar no WhatsApp

Ciência da Computação > Aprendizado de Máquina

  • Título: RNNs eram tudo?
  • Autores: Leo Feng, Frederick Tung, Mohamed Osama Ahmed, Yoshua Bengio, Hossein Hajimirsadegh
  • Data de submissão: 2 de outubro de 2024

Resumo

  • Contexto: Devido às limitações de escalabilidade dos Transformers em relação ao comprimento da sequência, o interesse por modelos sequenciais recorrentes que permitem paralelização voltou a crescer. Nesse contexto, novas arquiteturas recorrentes como S4, Mamba e Aaren têm sido propostas e alcançado desempenho semelhante.

  • Conteúdo da pesquisa: Reavalia redes neurais recorrentes (RNNs) tradicionais, como LSTM (1997) e GRU (2014). Esses modelos eram lentos por exigirem backpropagation through time (BPTT), mas, ao remover a dependência do estado oculto nos gates de entrada, esquecimento e atualização, deixam de precisar de BPTT e podem ser treinados com eficiência em paralelo.

  • Resultados: Introduz versões minimalistas (minLSTMs, minGRUs) que (1) usam muito menos parâmetros do que os modelos tradicionais e (2) permitem paralelização completa durante o treinamento (175 vezes mais rápidas em sequências de comprimento 512). Essas versões simplificadas de RNN apresentam desempenho empírico compatível com o dos modelos sequenciais mais recentes.

Resumo do GN⁺

  • Este estudo é interessante por resolver o gargalo dos modelos RNN tradicionais e permitir treinamento paralelo.
  • Recoloca em destaque o potencial das RNNs como alternativa para superar as limitações dos Transformers.
  • Pode contribuir para aumentar a eficiência da modelagem de sequências nas áreas de aprendizado de máquina e inteligência artificial.
  • Projetos com funcionalidade semelhante incluem modelos recentes baseados em Transformer.

Ainda não há comentários.

Ainda não há comentários.