2 pontos por GN⁺ 2024-10-10 | Ainda não há comentários. | Compartilhar no WhatsApp

Addition para modelos de linguagem energeticamente eficientes

  • Contexto da pesquisa

    • Redes neurais de grande porte usam a maior parte das operações em multiplicações de tensores de ponto flutuante.
    • Este estudo descobriu que é possível aproximar um multiplicador de ponto flutuante com alta precisão usando um único somador inteiro.
  • Algoritmo L-Mul

    • É proposto o L-Mul, um algoritmo de multiplicação de complexidade linear que aproxima a multiplicação de números de ponto flutuante por meio de operações de adição inteira.
    • O novo algoritmo consome menos recursos computacionais do que a multiplicação em ponto flutuante de 8 bits, ao mesmo tempo em que alcança maior precisão.
    • Como a multiplicação de números de ponto flutuante consome significativamente mais energia do que operações de adição inteira, aplicar a operação L-Mul em hardware de processamento de tensores pode reduzir em até 95% o custo energético de multiplicações element-wise de tensores em ponto flutuante e em até 80% o custo energético de produtos internos.
  • Avaliação teórica e experimental

    • Foi calculado o valor esperado do erro teórico do L-Mul, e o algoritmo foi avaliado em diversas tarefas textuais, visuais e simbólicas, incluindo compreensão de linguagem natural, raciocínio estruturado, matemática e resposta a perguntas de senso comum.
    • Os resultados de experimentos de análise numérica estão de acordo com as estimativas teóricas de erro e mostram que o L-Mul com mantissa de 4 bits atinge precisão semelhante à da multiplicação float8_e4m3, enquanto o L-Mul com mantissa de 3 bits supera float8_e5m2.
    • Resultados notáveis de avaliação em benchmarks mostram que aplicar o L-Mul diretamente ao mecanismo de atenção quase não causa perda.
    • Em modelos Transformer, substituir todas as multiplicações de ponto flutuante por L-Mul com mantissa de 3 bits alcança precisão equivalente à de usar float8_e4m3 com precisão de acumulação durante o fine-tuning e a inferência.

Resumo do GN⁺

  • O algoritmo L-Mul apresenta uma forma de melhorar significativamente a eficiência energética sem sacrificar alta precisão.
  • Mostra potencial para resolver o problema do consumo de energia em operações de ponto flutuante, especialmente em modelos de redes neurais de grande porte.
  • Esta pesquisa pode atrair grande interesse em áreas nas quais a economia de energia é crucial, e um projeto com funcionalidade semelhante é o TensorFlow Lite, do Google.

Ainda não há comentários.

Ainda não há comentários.