4 pontos por GN⁺ 2024-07-31 | 1 comentários | Compartilhar no WhatsApp
  • "Como gastar cerca de $10M (130 bilhões de won) em um preprint no arXiv"
  • Recentemente, o DeepMind (GDM) publicou um excelente artigo chamado "Scaling Exponents Across Parameterizations and Optimizers"
    • O artigo executa mais de 10.000 rodadas de treinamento de LLM e deriva os hiperparâmetros ideais em diversos ambientes
  • Após ler o artigo, foi feita uma tentativa de calcular o custo computacional total necessário para reproduzi-lo, agregando todos os resultados experimentais
  • Como resultado, o total necessário de FLOPS é 5.42e24, e o custo é de $12.9M (17,8 bilhões de won) (medido a $3/H100/hora)
    • Em termos gerais, 5.42e24 não é uma escala "tão grande assim"
    • Isso não chega a 15% da computação usada no Llama 3, e todos esses experimentos poderiam ser executados em apenas 2 dias com um cluster de 100.000 H100

Explicação adicional sobre o valor do H100

  • Como é um artigo de autores do Google DeepMind, é quase certo que os experimentos tenham sido feitos com TPU
  • Como o artigo não menciona uso de int8, estima-se que a precisão usada tenha sido bfloat16
  • O H100-SXM oferece desempenho de 989.40 TFLOP/s em operações tensoriais de 16 bits
  • Um post recente do blog do PyTorch e o torchtitan reportam MFU de cerca de 40% no H100
  • O custo de um nó H100 é estimado em cerca de $3 por hora (varia um pouco dependendo de onde é usado, então é um valor médio)

1 comentários

 
parkindani 2024-08-01

Fiquei curioso com a quantidade total de energia usada, mais do que com o preço.