10 pontos por xguru 2023-06-28 | Ainda não há comentários. | Compartilhar no WhatsApp
  • LLMs exigem uma quantidade bastante grande de memória e recursos computacionais
  • A família ZeRO, da DeepSpeed, oferece uma solução para esse problema e é usada em TNLG-17B, Bloom-176B, MPT-7B, Jurassic-1 etc.
  • Porém, em cenários de grande escala com uso de muitas GPUs, surgem sobrecargas, como a necessidade de comunicação frequente entre GPUs
  • O ZeRO++ foi criado para esses casos e reduz em 4x o volume total de comunicação sem afetar a qualidade do modelo
    • Acelera o pré-treinamento e o fine-tuning de modelos de grande porte
      • Tamanho de batch pequeno por GPU: throughput 2,2x maior em relação ao ZeRO
      • Mesmo em clusters de baixa largura de banda, entrega desempenho comparável ao de 4x mais largura de banda
    • Também acelera modelos como o ChatGPT treinados com RLHF

Ainda não há comentários.

Ainda não há comentários.