Guia de Cloud GPU - Qual GPU usar para IA e onde?

xguru · 2023-08-23T11:04:02+09:00

Se você criar ferramentas de IA usando StableDiffusion, Whisper, LLMs open source etc., elas precisam continuar rodando em algum lugar Qual GPU devo usar? Se for usar Cloud GPU: Falcon-40B, Falcon-40B-Uncensored ou Falcon-40B-Instruct Se quiser o melhor desempenho sem se importar com custo: 2x H100 Se busca equilíbrio entre custo e desempenho: 2x RTX 6000 Ada (não A6000 nem RTX6000) Se quer algo barato: 2x A6000 MPT-30B Melhor desempenho ou melhor custo-benefício: 1x H100 Barato: 1x A100 80GB Stable Diffusion Melhor desempenho: 1x H100 Custo-benefício: 1x 4090 Barato: 1x 3090 Whisper Igual ao Stable Diffusion Whisper-Large pode rodar com menos VRAM, mas a maioria das nuvens não tem essas placas 4090/3090 também funcionam bem, e também é possível usar CPU Se for fazer fine-tuning de LLMs grandes Cluster de H100 ou cluster de A100 Se quiser treinar LLMs grandes Grande cluster de H100 Se for usar GPU local: É quase igual ao caso acima, mas treinamento e fine-tuning de LLM não são viáveis A maioria dos LLMs tem versões que conseguem rodar com pouca VRAM (Falcon em 40GB) Devo rodar os modelos localmente ou em uma Cloud GPU? As duas são escolhas razoáveis Para rodar modelos na nuvem, os templates do Runpod são a opção mais fácil A opção mais simples é usar instâncias hospedadas: DreamStudio, RunDiffusion, Playground AI para stable diffusion etc. Qual é a diferença entre RTX 6000, A6000 e 6000 Ada? Os três são completamente diferentes RTX 6000 (Quadro RTX 6000, 24 GB VRAM, lançada em 2018/08/13) RTX A6000 (48 GB VRAM, lançada em 2020/10/05) RTX 6000 Ada (48 GB VRAM, lançada em 2022/12/03) DGX GH200, GH200, H100? 1 DGX GH200 inclui 256 GH200 1 GH200 inclui 1 H100 e 1 CPU Grace H100 é um grande upgrade em relação à A100? Com certeza. O ganho de velocidade é muito grande. A H100 também pode escalar para um número maior de GPUs do que a A100 Ou seja, para treinamento de LLM, várias H100 são o ideal E AMD, Intel e Cerebras? No momento, Nvidia é a opção mais fácil Qual cloud de GPU devo usar? Se precisar de muitas A100/H100: entre em contato com Oracle, FluidStack, Lambda Labs etc. Se precisar de algumas A100: FluidStack ou Runpod Se precisar de 1 H100: FluidStack ou Lambda Labs 3090s, 4090s e A6000s baratas: Tensordock. Se precisar apenas de inferência de Stable Diffusion: Salad. Se precisar de vários tipos de GPU: Runpod ou FluidStack. Se quiser usar templates ou estiver fazendo isso como hobby: Runpod. As grandes clouds são caras e complexas Cloud GPU mais fácil para começar Usar templates no RunPod Observe que os pods do RunPod são contêineres Docker na máquina host, não VMs completas De quanta VRAM, RAM do sistema e quantos vCPUs eu preciso? VRAM (Video RAM / GPU RAM) Falcon-40B: 85-100GB MPT-30B: 80GB Stable Diffusion: preferível 16GB+ Whisper: 12GB+. (Nesse nível se usar a versão da OpenAI; com versões da comunidade, também pode rodar em CPU) RAM do sistema 1 a 2 vezes a VRAM vCPUs 8-16 vCPU são suficientes, a menos que seja uma carga de trabalho pesada de GPU Espaço em disco Depende do caso de uso. Se não souber, comece com 100GB e veja se atende ao seu caso

(gpus.llm-utils.org)

37 pontos por xguru 2023-08-23 | 6 comentários | Compartilhar no WhatsApp

Se você criar ferramentas de IA usando StableDiffusion, Whisper, LLMs open source etc., elas precisam continuar rodando em algum lugar

Qual GPU devo usar?

Se for usar Cloud GPU:

Falcon-40B, Falcon-40B-Uncensored ou Falcon-40B-Instruct
- Se quiser o melhor desempenho sem se importar com custo: 2x H100
- Se busca equilíbrio entre custo e desempenho: 2x RTX 6000 Ada (não A6000 nem RTX6000)
- Se quer algo barato: 2x A6000
MPT-30B
- Melhor desempenho ou melhor custo-benefício: 1x H100
- Barato: 1x A100 80GB
Stable Diffusion
- Melhor desempenho: 1x H100
- Custo-benefício: 1x 4090
- Barato: 1x 3090
Whisper
- Igual ao Stable Diffusion
- Whisper-Large pode rodar com menos VRAM, mas a maioria das nuvens não tem essas placas
- 4090/3090 também funcionam bem, e também é possível usar CPU
Se for fazer fine-tuning de LLMs grandes
- Cluster de H100 ou cluster de A100
Se quiser treinar LLMs grandes
- Grande cluster de H100
  Se for usar GPU local:
É quase igual ao caso acima, mas treinamento e fine-tuning de LLM não são viáveis
A maioria dos LLMs tem versões que conseguem rodar com pouca VRAM (Falcon em 40GB)

Devo rodar os modelos localmente ou em uma Cloud GPU?

As duas são escolhas razoáveis
Para rodar modelos na nuvem, os templates do Runpod são a opção mais fácil
A opção mais simples é usar instâncias hospedadas: DreamStudio, RunDiffusion, Playground AI para stable diffusion etc.

Qual é a diferença entre RTX 6000, A6000 e 6000 Ada?

Os três são completamente diferentes

RTX 6000 (Quadro RTX 6000, 24 GB VRAM, lançada em 2018/08/13)
RTX A6000 (48 GB VRAM, lançada em 2020/10/05)
RTX 6000 Ada (48 GB VRAM, lançada em 2022/12/03)

DGX GH200, GH200, H100?

1 DGX GH200 inclui 256 GH200
1 GH200 inclui 1 H100 e 1 CPU Grace

H100 é um grande upgrade em relação à A100?

Com certeza. O ganho de velocidade é muito grande. A H100 também pode escalar para um número maior de GPUs do que a A100
Ou seja, para treinamento de LLM, várias H100 são o ideal

E AMD, Intel e Cerebras?

No momento, Nvidia é a opção mais fácil

Qual cloud de GPU devo usar?

Se precisar de muitas A100/H100: entre em contato com Oracle, FluidStack, Lambda Labs etc.
Se precisar de algumas A100: FluidStack ou Runpod
Se precisar de 1 H100: FluidStack ou Lambda Labs
3090s, 4090s e A6000s baratas: Tensordock.
Se precisar apenas de inferência de Stable Diffusion: Salad.
Se precisar de vários tipos de GPU: Runpod ou FluidStack.
Se quiser usar templates ou estiver fazendo isso como hobby: Runpod.
As grandes clouds são caras e complexas

Cloud GPU mais fácil para começar

Usar templates no RunPod
Observe que os pods do RunPod são contêineres Docker na máquina host, não VMs completas

De quanta VRAM, RAM do sistema e quantos vCPUs eu preciso?

VRAM (Video RAM / GPU RAM)
- Falcon-40B: 85-100GB
- MPT-30B: 80GB
- Stable Diffusion: preferível 16GB+
- Whisper: 12GB+. (Nesse nível se usar a versão da OpenAI; com versões da comunidade, também pode rodar em CPU)
RAM do sistema
- 1 a 2 vezes a VRAM
vCPUs
- 8-16 vCPU são suficientes, a menos que seja uma carga de trabalho pesada de GPU
Espaço em disco
Depende do caso de uso. Se não souber, comece com 100GB e veja se atende ao seu caso

6 comentários

wlsdk318 2024-01-30

Estou usando o Runpod, e é barato, fácil de usar e muito bom! Obrigado pelas ótimas informações.

geekbini 2023-08-24

Informação muito boa mesmo!

ninebow 2023-08-24

É um detalhe pequeno, mas achei que estavam faltando umas 2 seções mais para baixo, então tentei acrescentá-las. :)

SXM ou PCIe, precisa de NVLink?

Se você não tiver certeza, assuma primeiro que isso não é importante
Para saber mais: https://gpus.llm-utils.org/nvlink-sxm-and-pcie/

E o InfiniBand?

Se você usa 1 ou 2 GPUs, não precisa. É necessário quando se usa clusters com milhares de GPUs.