DeepSpeed ZeRO++: salto revolucionário na velocidade de treinamento de LLMs e modelos de chat com 4x menos comunicação

xguru · 2023-06-28T10:03:01+09:00

LLMs exigem uma quantidade bastante grande de memória e recursos computacionais A família ZeRO, da DeepSpeed, oferece uma solução para esse problema e é usada em TNLG-17B, Bloom-176B, MPT-7B, Jurassic-1 etc. Porém, em cenários de grande escala com uso de muitas GPUs, surgem sobrecargas, como a necessidade de comunicação frequente entre GPUs O ZeRO++ foi criado para esses casos e reduz em 4x o volume total de comunicação sem afetar a qualidade do modelo Acelera o pré-treinamento e o fine-tuning de modelos de grande porte Tamanho de batch pequeno por GPU: throughput 2,2x maior em relação ao ZeRO Mesmo em clusters de baixa largura de banda, entrega desempenho comparável ao de 4x mais largura de banda Também acelera modelos como o ChatGPT treinados com RLHF

(microsoft.com)

10 pontos por xguru 2023-06-28 | Ainda não há comentários. | Compartilhar no WhatsApp

LLMs exigem uma quantidade bastante grande de memória e recursos computacionais
A família ZeRO, da DeepSpeed, oferece uma solução para esse problema e é usada em TNLG-17B, Bloom-176B, MPT-7B, Jurassic-1 etc.
Porém, em cenários de grande escala com uso de muitas GPUs, surgem sobrecargas, como a necessidade de comunicação frequente entre GPUs
O ZeRO++ foi criado para esses casos e reduz em 4x o volume total de comunicação sem afetar a qualidade do modelo
- Acelera o pré-treinamento e o fine-tuning de modelos de grande porte
  - Tamanho de batch pequeno por GPU: throughput 2,2x maior em relação ao ZeRO
  - Mesmo em clusters de baixa largura de banda, entrega desempenho comparável ao de 4x mais largura de banda
- Também acelera modelos como o ChatGPT treinados com RLHF

DeepSpeed ZeRO++: salto revolucionário na velocidade de treinamento de LLMs e modelos de chat com 4x menos comunicação

Leituras relacionadas

Ainda não há comentários.