RNNs eram tudo?
(arxiv.org)Ciência da Computação > Aprendizado de Máquina
- Título: RNNs eram tudo?
- Autores: Leo Feng, Frederick Tung, Mohamed Osama Ahmed, Yoshua Bengio, Hossein Hajimirsadegh
- Data de submissão: 2 de outubro de 2024
Resumo
-
Contexto: Devido às limitações de escalabilidade dos Transformers em relação ao comprimento da sequência, o interesse por modelos sequenciais recorrentes que permitem paralelização voltou a crescer. Nesse contexto, novas arquiteturas recorrentes como S4, Mamba e Aaren têm sido propostas e alcançado desempenho semelhante.
-
Conteúdo da pesquisa: Reavalia redes neurais recorrentes (RNNs) tradicionais, como LSTM (1997) e GRU (2014). Esses modelos eram lentos por exigirem backpropagation through time (BPTT), mas, ao remover a dependência do estado oculto nos gates de entrada, esquecimento e atualização, deixam de precisar de BPTT e podem ser treinados com eficiência em paralelo.
-
Resultados: Introduz versões minimalistas (minLSTMs, minGRUs) que (1) usam muito menos parâmetros do que os modelos tradicionais e (2) permitem paralelização completa durante o treinamento (175 vezes mais rápidas em sequências de comprimento 512). Essas versões simplificadas de RNN apresentam desempenho empírico compatível com o dos modelos sequenciais mais recentes.
Resumo do GN⁺
- Este estudo é interessante por resolver o gargalo dos modelos RNN tradicionais e permitir treinamento paralelo.
- Recoloca em destaque o potencial das RNNs como alternativa para superar as limitações dos Transformers.
- Pode contribuir para aumentar a eficiência da modelagem de sequências nas áreas de aprendizado de máquina e inteligência artificial.
- Projetos com funcionalidade semelhante incluem modelos recentes baseados em Transformer.
Ainda não há comentários.