- "Como gastar cerca de $10M (130 bilhões de won) em um preprint no arXiv"
- Recentemente, o DeepMind (GDM) publicou um excelente artigo chamado "Scaling Exponents Across Parameterizations and Optimizers"
- O artigo executa mais de 10.000 rodadas de treinamento de LLM e deriva os hiperparâmetros ideais em diversos ambientes
- Após ler o artigo, foi feita uma tentativa de calcular o custo computacional total necessário para reproduzi-lo, agregando todos os resultados experimentais
- Como resultado, o total necessário de FLOPS é 5.42e24, e o custo é de $12.9M (17,8 bilhões de won) (medido a $3/H100/hora)
- Em termos gerais, 5.42e24 não é uma escala "tão grande assim"
- Isso não chega a 15% da computação usada no Llama 3, e todos esses experimentos poderiam ser executados em apenas 2 dias com um cluster de 100.000 H100
Explicação adicional sobre o valor do H100
- Como é um artigo de autores do Google DeepMind, é quase certo que os experimentos tenham sido feitos com TPU
- Como o artigo não menciona uso de int8, estima-se que a precisão usada tenha sido bfloat16
- O H100-SXM oferece desempenho de 989.40 TFLOP/s em operações tensoriais de 16 bits
- Um post recente do blog do PyTorch e o torchtitan reportam MFU de cerca de 40% no H100
- O custo de um nó H100 é estimado em cerca de $3 por hora (varia um pouco dependendo de onde é usado, então é um valor médio)
1 comentários
Fiquei curioso com a quantidade total de energia usada, mais do que com o preço.