- LLMs exigem uma quantidade bastante grande de memória e recursos computacionais
- A família ZeRO, da DeepSpeed, oferece uma solução para esse problema e é usada em TNLG-17B, Bloom-176B, MPT-7B, Jurassic-1 etc.
- Porém, em cenários de grande escala com uso de muitas GPUs, surgem sobrecargas, como a necessidade de comunicação frequente entre GPUs
- O ZeRO++ foi criado para esses casos e reduz em 4x o volume total de comunicação sem afetar a qualidade do modelo
- Acelera o pré-treinamento e o fine-tuning de modelos de grande porte
- Tamanho de batch pequeno por GPU: throughput 2,2x maior em relação ao ZeRO
- Mesmo em clusters de baixa largura de banda, entrega desempenho comparável ao de 4x mais largura de banda
- Também acelera modelos como o ChatGPT treinados com RLHF
Ainda não há comentários.