Addition para modelos de linguagem energeticamente eficientes
-
Contexto da pesquisa
- Redes neurais de grande porte usam a maior parte das operações em multiplicações de tensores de ponto flutuante.
- Este estudo descobriu que é possível aproximar um multiplicador de ponto flutuante com alta precisão usando um único somador inteiro.
-
Algoritmo L-Mul
- É proposto o L-Mul, um algoritmo de multiplicação de complexidade linear que aproxima a multiplicação de números de ponto flutuante por meio de operações de adição inteira.
- O novo algoritmo consome menos recursos computacionais do que a multiplicação em ponto flutuante de 8 bits, ao mesmo tempo em que alcança maior precisão.
- Como a multiplicação de números de ponto flutuante consome significativamente mais energia do que operações de adição inteira, aplicar a operação L-Mul em hardware de processamento de tensores pode reduzir em até 95% o custo energético de multiplicações element-wise de tensores em ponto flutuante e em até 80% o custo energético de produtos internos.
-
Avaliação teórica e experimental
- Foi calculado o valor esperado do erro teórico do L-Mul, e o algoritmo foi avaliado em diversas tarefas textuais, visuais e simbólicas, incluindo compreensão de linguagem natural, raciocínio estruturado, matemática e resposta a perguntas de senso comum.
- Os resultados de experimentos de análise numérica estão de acordo com as estimativas teóricas de erro e mostram que o L-Mul com mantissa de 4 bits atinge precisão semelhante à da multiplicação
float8_e4m3, enquanto o L-Mul com mantissa de 3 bits superafloat8_e5m2. - Resultados notáveis de avaliação em benchmarks mostram que aplicar o L-Mul diretamente ao mecanismo de atenção quase não causa perda.
- Em modelos Transformer, substituir todas as multiplicações de ponto flutuante por L-Mul com mantissa de 3 bits alcança precisão equivalente à de usar
float8_e4m3com precisão de acumulação durante o fine-tuning e a inferência.
Resumo do GN⁺
- O algoritmo L-Mul apresenta uma forma de melhorar significativamente a eficiência energética sem sacrificar alta precisão.
- Mostra potencial para resolver o problema do consumo de energia em operações de ponto flutuante, especialmente em modelos de redes neurais de grande porte.
- Esta pesquisa pode atrair grande interesse em áreas nas quais a economia de energia é crucial, e um projeto com funcionalidade semelhante é o TensorFlow Lite, do Google.
Ainda não há comentários.