DeepSpeed Ulysses: otimização de sistema para treinamento de modelos Transformer com sequências longas

xguru · 2023-08-31T11:03:01+09:00

Oferece comprimentos de sequência 4 vezes maiores do que os sistemas existentes, permitindo treinamento com sequências contendo mais de um milhão de tokens A comunicação é reduzida em mais de 10 vezes, aumentando o throughput em até 2,5 vezes. O throughput se mantém acima de 175 TFlops/GPU Attention totalmente generalista e agnóstica à implementação (também funciona com implementações como FlashAttention 2) Suporte ao treinamento de modelos de grande escala: funciona com ZeRO-3 para suportar grandes tamanhos de sequência/modelo Fácil de usar e altamente portátil, com mudanças mínimas nos frameworks existentes

(github.com/microsoft)

5 pontos por xguru 2023-08-31 | Ainda não há comentários. | Compartilhar no WhatsApp

Oferece comprimentos de sequência 4 vezes maiores do que os sistemas existentes, permitindo treinamento com sequências contendo mais de um milhão de tokens
A comunicação é reduzida em mais de 10 vezes, aumentando o throughput em até 2,5 vezes. O throughput se mantém acima de 175 TFlops/GPU
Attention totalmente generalista e agnóstica à implementação (também funciona com implementações como FlashAttention 2)
Suporte ao treinamento de modelos de grande escala: funciona com ZeRO-3 para suportar grandes tamanhos de sequência/modelo
Fácil de usar e altamente portátil, com mudanças mínimas nos frameworks existentes

DeepSpeed Ulysses: otimização de sistema para treinamento de modelos Transformer com sequências longas

Leituras relacionadas

Ainda não há comentários.