2 pontos por GN⁺ 2024-04-08 | Ainda não há comentários. | Compartilhar no WhatsApp

Alocação dinâmica de computação em modelos de linguagem baseados em transformadores

  • Modelos de linguagem baseados em transformadores geralmente distribuem FLOPs (operações de ponto flutuante) de forma uniforme ao longo da sequência de entrada.
  • A equipe de pesquisa mostrou que transformadores podem aprender a alocar FLOPs dinamicamente para posições específicas.
  • Esse método otimiza a alocação para a sequência em diferentes camadas ao longo da profundidade do modelo.

Nova metodologia: Mixture-of-Depths

  • Para limitar o orçamento total de computação, restringe-se o número de tokens (k) que podem participar dos cálculos de self-attention e MLP.
  • A rede determina quais tokens processar usando um mecanismo de roteamento top-k.
  • Como k é predefinido, diferentemente de outras técnicas de computação condicional, usa-se um grafo de computação estático com tamanhos de tensor conhecidos.

Eficiência e desempenho

  • Como a identidade dos tokens é fluida, esse método pode consumir FLOPs de forma desigual nas dimensões de tempo e profundidade do modelo.
  • O gasto computacional é totalmente previsível no total, mas dinâmico e sensível ao contexto no nível do token.
  • Modelos treinados com esse método não apenas alocam computação dinamicamente, mas também a alocam de forma eficiente.
  • Esses modelos atingem o desempenho de referência com os mesmos FLOPs e o mesmo tempo de treinamento em relógio de parede, mas exigem apenas uma fração dos FLOPs por forward pass e, durante a amostragem após o treinamento, podem operar até 50% mais rápido.

Opinião do GN⁺

  • Esta pesquisa aborda um tema importante de eficiência na área de processamento de linguagem natural (NLP) e apresenta uma nova abordagem para reduzir o custo computacional de modelos transformadores.
  • A alocação dinâmica de computação pode ajudar a reduzir o consumo de energia e os custos, especialmente no uso de modelos de linguagem de grande escala.
  • No entanto, para que essa tecnologia seja integrada a aplicações reais, ainda serão necessárias validações e otimizações adicionais.
  • Este estudo oferece novas ideias para a comunidade de machine learning e pode impactar a implantação de modelos de linguagem, especialmente em ambientes com recursos limitados, como a computação em nuvem.
  • De uma perspectiva crítica, serão necessários estudos adicionais para verificar se esse método terá o mesmo efeito em todos os tipos de modelos de linguagem e conjuntos de dados, bem como em quais tipos de tarefas ele é mais eficiente.

Ainda não há comentários.

Ainda não há comentários.