Guia de Cloud GPU - Qual GPU usar para IA e onde?
(gpus.llm-utils.org)- Se você criar ferramentas de IA usando StableDiffusion, Whisper, LLMs open source etc., elas precisam continuar rodando em algum lugar
Qual GPU devo usar?
Se for usar Cloud GPU:
- Falcon-40B, Falcon-40B-Uncensored ou Falcon-40B-Instruct
- Se quiser o melhor desempenho sem se importar com custo: 2x H100
- Se busca equilíbrio entre custo e desempenho: 2x RTX 6000 Ada (não A6000 nem RTX6000)
- Se quer algo barato: 2x A6000
- MPT-30B
- Melhor desempenho ou melhor custo-benefício: 1x H100
- Barato: 1x A100 80GB
- Stable Diffusion
- Melhor desempenho: 1x H100
- Custo-benefício: 1x 4090
- Barato: 1x 3090
- Whisper
- Igual ao Stable Diffusion
- Whisper-Large pode rodar com menos VRAM, mas a maioria das nuvens não tem essas placas
- 4090/3090 também funcionam bem, e também é possível usar CPU
- Se for fazer fine-tuning de LLMs grandes
- Cluster de H100 ou cluster de A100
- Se quiser treinar LLMs grandes
- Grande cluster de H100
Se for usar GPU local:
- Grande cluster de H100
- É quase igual ao caso acima, mas treinamento e fine-tuning de LLM não são viáveis
- A maioria dos LLMs tem versões que conseguem rodar com pouca VRAM (Falcon em 40GB)
Devo rodar os modelos localmente ou em uma Cloud GPU?
- As duas são escolhas razoáveis
- Para rodar modelos na nuvem, os templates do Runpod são a opção mais fácil
- A opção mais simples é usar instâncias hospedadas: DreamStudio, RunDiffusion, Playground AI para stable diffusion etc.
Qual é a diferença entre RTX 6000, A6000 e 6000 Ada?
Os três são completamente diferentes
- RTX 6000 (Quadro RTX 6000, 24 GB VRAM, lançada em 2018/08/13)
- RTX A6000 (48 GB VRAM, lançada em 2020/10/05)
- RTX 6000 Ada (48 GB VRAM, lançada em 2022/12/03)
DGX GH200, GH200, H100?
- 1 DGX GH200 inclui 256 GH200
- 1 GH200 inclui 1 H100 e 1 CPU Grace
H100 é um grande upgrade em relação à A100?
- Com certeza. O ganho de velocidade é muito grande. A H100 também pode escalar para um número maior de GPUs do que a A100
- Ou seja, para treinamento de LLM, várias H100 são o ideal
E AMD, Intel e Cerebras?
- No momento, Nvidia é a opção mais fácil
Qual cloud de GPU devo usar?
- Se precisar de muitas A100/H100: entre em contato com Oracle, FluidStack, Lambda Labs etc.
- Se precisar de algumas A100: FluidStack ou Runpod
- Se precisar de 1 H100: FluidStack ou Lambda Labs
- 3090s, 4090s e A6000s baratas: Tensordock.
- Se precisar apenas de inferência de Stable Diffusion: Salad.
- Se precisar de vários tipos de GPU: Runpod ou FluidStack.
- Se quiser usar templates ou estiver fazendo isso como hobby: Runpod.
- As grandes clouds são caras e complexas
Cloud GPU mais fácil para começar
- Usar templates no RunPod
- Observe que os pods do RunPod são contêineres Docker na máquina host, não VMs completas
De quanta VRAM, RAM do sistema e quantos vCPUs eu preciso?
- VRAM (Video RAM / GPU RAM)
- Falcon-40B: 85-100GB
- MPT-30B: 80GB
- Stable Diffusion: preferível 16GB+
- Whisper: 12GB+. (Nesse nível se usar a versão da OpenAI; com versões da comunidade, também pode rodar em CPU)
- RAM do sistema
- 1 a 2 vezes a VRAM
- vCPUs
- 8-16 vCPU são suficientes, a menos que seja uma carga de trabalho pesada de GPU
- Espaço em disco
- Depende do caso de uso. Se não souber, comece com 100GB e veja se atende ao seu caso
6 comentários
Estou usando o Runpod, e é barato, fácil de usar e muito bom! Obrigado pelas ótimas informações.
Informação muito boa mesmo!
É um detalhe pequeno, mas achei que estavam faltando umas 2 seções mais para baixo, então tentei acrescentá-las. :)
SXM ou PCIe, precisa de NVLink?
E o InfiniBand?
Obrigado pelo ótimo artigo!
Para quem trabalha com isso, essa deve ser uma informação realmente valiosa.
Oh, material muito útil.