37 pontos por xguru 2023-08-23 | 6 comentários | Compartilhar no WhatsApp
  • Se você criar ferramentas de IA usando StableDiffusion, Whisper, LLMs open source etc., elas precisam continuar rodando em algum lugar

Qual GPU devo usar?

Se for usar Cloud GPU:

  • Falcon-40B, Falcon-40B-Uncensored ou Falcon-40B-Instruct
    • Se quiser o melhor desempenho sem se importar com custo: 2x H100
    • Se busca equilíbrio entre custo e desempenho: 2x RTX 6000 Ada (não A6000 nem RTX6000)
    • Se quer algo barato: 2x A6000
  • MPT-30B
    • Melhor desempenho ou melhor custo-benefício: 1x H100
    • Barato: 1x A100 80GB
  • Stable Diffusion
    • Melhor desempenho: 1x H100
    • Custo-benefício: 1x 4090
    • Barato: 1x 3090
  • Whisper
    • Igual ao Stable Diffusion
    • Whisper-Large pode rodar com menos VRAM, mas a maioria das nuvens não tem essas placas
    • 4090/3090 também funcionam bem, e também é possível usar CPU
  • Se for fazer fine-tuning de LLMs grandes
    • Cluster de H100 ou cluster de A100
  • Se quiser treinar LLMs grandes
    • Grande cluster de H100
      Se for usar GPU local:
  • É quase igual ao caso acima, mas treinamento e fine-tuning de LLM não são viáveis
  • A maioria dos LLMs tem versões que conseguem rodar com pouca VRAM (Falcon em 40GB)

Devo rodar os modelos localmente ou em uma Cloud GPU?

  • As duas são escolhas razoáveis
  • Para rodar modelos na nuvem, os templates do Runpod são a opção mais fácil
  • A opção mais simples é usar instâncias hospedadas: DreamStudio, RunDiffusion, Playground AI para stable diffusion etc.

Qual é a diferença entre RTX 6000, A6000 e 6000 Ada?

Os três são completamente diferentes

  • RTX 6000 (Quadro RTX 6000, 24 GB VRAM, lançada em 2018/08/13)
  • RTX A6000 (48 GB VRAM, lançada em 2020/10/05)
  • RTX 6000 Ada (48 GB VRAM, lançada em 2022/12/03)

DGX GH200, GH200, H100?

  • 1 DGX GH200 inclui 256 GH200
  • 1 GH200 inclui 1 H100 e 1 CPU Grace

H100 é um grande upgrade em relação à A100?

  • Com certeza. O ganho de velocidade é muito grande. A H100 também pode escalar para um número maior de GPUs do que a A100
  • Ou seja, para treinamento de LLM, várias H100 são o ideal

E AMD, Intel e Cerebras?

  • No momento, Nvidia é a opção mais fácil

Qual cloud de GPU devo usar?

  • Se precisar de muitas A100/H100: entre em contato com Oracle, FluidStack, Lambda Labs etc.
  • Se precisar de algumas A100: FluidStack ou Runpod
  • Se precisar de 1 H100: FluidStack ou Lambda Labs
  • 3090s, 4090s e A6000s baratas: Tensordock.
  • Se precisar apenas de inferência de Stable Diffusion: Salad.
  • Se precisar de vários tipos de GPU: Runpod ou FluidStack.
  • Se quiser usar templates ou estiver fazendo isso como hobby: Runpod.
  • As grandes clouds são caras e complexas

Cloud GPU mais fácil para começar

De quanta VRAM, RAM do sistema e quantos vCPUs eu preciso?

  • VRAM (Video RAM / GPU RAM)
    • Falcon-40B: 85-100GB
    • MPT-30B: 80GB
    • Stable Diffusion: preferível 16GB+
    • Whisper: 12GB+. (Nesse nível se usar a versão da OpenAI; com versões da comunidade, também pode rodar em CPU)
  • RAM do sistema
    • 1 a 2 vezes a VRAM
  • vCPUs
    • 8-16 vCPU são suficientes, a menos que seja uma carga de trabalho pesada de GPU
  • Espaço em disco
  • Depende do caso de uso. Se não souber, comece com 100GB e veja se atende ao seu caso

6 comentários

 
wlsdk318 2024-01-30

Estou usando o Runpod, e é barato, fácil de usar e muito bom! Obrigado pelas ótimas informações.

 
geekbini 2023-08-24

Informação muito boa mesmo!

 
ninebow 2023-08-24

É um detalhe pequeno, mas achei que estavam faltando umas 2 seções mais para baixo, então tentei acrescentá-las. :)


SXM ou PCIe, precisa de NVLink?

E o InfiniBand?

  • Se você usa 1 ou 2 GPUs, não precisa. É necessário quando se usa clusters com milhares de GPUs.
 
ninebow 2023-08-24

Obrigado pelo ótimo artigo!

 
nicewook 2023-08-23

Para quem trabalha com isso, essa deve ser uma informação realmente valiosa.

 
ragingwind 2023-08-23

Oh, material muito útil.