Alocação dinâmica de computação em modelos de linguagem baseados em transformadores
- Modelos de linguagem baseados em transformadores geralmente distribuem FLOPs (operações de ponto flutuante) de forma uniforme ao longo da sequência de entrada.
- A equipe de pesquisa mostrou que transformadores podem aprender a alocar FLOPs dinamicamente para posições específicas.
- Esse método otimiza a alocação para a sequência em diferentes camadas ao longo da profundidade do modelo.
Nova metodologia: Mixture-of-Depths
- Para limitar o orçamento total de computação, restringe-se o número de tokens (k) que podem participar dos cálculos de self-attention e MLP.
- A rede determina quais tokens processar usando um mecanismo de roteamento top-k.
- Como k é predefinido, diferentemente de outras técnicas de computação condicional, usa-se um grafo de computação estático com tamanhos de tensor conhecidos.
Eficiência e desempenho
- Como a identidade dos tokens é fluida, esse método pode consumir FLOPs de forma desigual nas dimensões de tempo e profundidade do modelo.
- O gasto computacional é totalmente previsível no total, mas dinâmico e sensível ao contexto no nível do token.
- Modelos treinados com esse método não apenas alocam computação dinamicamente, mas também a alocam de forma eficiente.
- Esses modelos atingem o desempenho de referência com os mesmos FLOPs e o mesmo tempo de treinamento em relógio de parede, mas exigem apenas uma fração dos FLOPs por forward pass e, durante a amostragem após o treinamento, podem operar até 50% mais rápido.
Opinião do GN⁺
- Esta pesquisa aborda um tema importante de eficiência na área de processamento de linguagem natural (NLP) e apresenta uma nova abordagem para reduzir o custo computacional de modelos transformadores.
- A alocação dinâmica de computação pode ajudar a reduzir o consumo de energia e os custos, especialmente no uso de modelos de linguagem de grande escala.
- No entanto, para que essa tecnologia seja integrada a aplicações reais, ainda serão necessárias validações e otimizações adicionais.
- Este estudo oferece novas ideias para a comunidade de machine learning e pode impactar a implantação de modelos de linguagem, especialmente em ambientes com recursos limitados, como a computação em nuvem.
- De uma perspectiva crítica, serão necessários estudos adicionais para verificar se esse método terá o mesmo efeito em todos os tipos de modelos de linguagem e conjuntos de dados, bem como em quais tipos de tarefas ele é mais eficiente.
Ainda não há comentários.