Calculando o custo do artigo do Google DeepMind

(152334H.github.io)

4 pontos por GN⁺ 2024-07-31 | 1 comentários | Compartilhar no WhatsApp

"Como gastar cerca de $10M (130 bilhões de won) em um preprint no arXiv"
Recentemente, o DeepMind (GDM) publicou um excelente artigo chamado "Scaling Exponents Across Parameterizations and Optimizers"
- O artigo executa mais de 10.000 rodadas de treinamento de LLM e deriva os hiperparâmetros ideais em diversos ambientes
Após ler o artigo, foi feita uma tentativa de calcular o custo computacional total necessário para reproduzi-lo, agregando todos os resultados experimentais
Como resultado, o total necessário de FLOPS é 5.42e24, e o custo é de $12.9M (17,8 bilhões de won) (medido a $3/H100/hora)
- Em termos gerais, 5.42e24 não é uma escala "tão grande assim"
- Isso não chega a 15% da computação usada no Llama 3, e todos esses experimentos poderiam ser executados em apenas 2 dias com um cluster de 100.000 H100

Explicação adicional sobre o valor do H100

Como é um artigo de autores do Google DeepMind, é quase certo que os experimentos tenham sido feitos com TPU
Como o artigo não menciona uso de int8, estima-se que a precisão usada tenha sido bfloat16
O H100-SXM oferece desempenho de 989.40 TFLOP/s em operações tensoriais de 16 bits
Um post recente do blog do PyTorch e o torchtitan reportam MFU de cerca de 40% no H100
O custo de um nó H100 é estimado em cerca de $3 por hora (varia um pouco dependendo de onde é usado, então é um valor médio)

parkindani 2024-08-01

Fiquei curioso com a quantidade total de energia usada, mais do que com o preço.