3 pontos por GN⁺ 2024-09-09 | 1 comentários | Compartilhar no WhatsApp
  • Com o aumento da escala dos experimentos pessoais com LLMs, foi criado em casa um servidor de IA dedicado com 8x RTX 3090 e um total de 192 GB de VRAM
  • Como o ambiente anterior com 48 GB de VRAM já não conseguia acompanhar os experimentos, a configuração foi expandida para um nó multi-GPU pensando até na execução do Llama-3.1 405B, da Meta
  • A configuração tem como base uma Asrock Rack ROMED8-2T, AMD Epyc Milan 7713, 512 GB DDR4-3200 RDIMM, três fontes de alimentação de 1600 W e 8 RTX 3090 interligadas por 4x NVLink
  • O NVLink oferece taxa de transferência de 112 GB/s para cada par de GPUs, e gargalos como lanes PCIe, risers, motores de inferência e fine-tuning continuam como temas principais dos próximos posts
  • Montar um grande servidor doméstico para LLMs é possível, mas as dificuldades de montagem e erros caros são muitos; por isso, a escolha e a validação do hardware determinam o sucesso ou o fracasso

Objetivo do servidor LLM no porão

  • O projeto paralelo mais recente, AI from The Basement, é um servidor LLM dedicado, com 8 placas de vídeo RTX 3090 e um total de 192 GB de VRAM
  • Um dos objetivos é executar o Llama-3.1 405B, da Meta
  • Antes, eram usados 48 GB de VRAM para experimentos com LLMs, mas por volta de março de 2024 concluiu-se que essa capacidade já não era suficiente para acompanhar os experimentos
  • No processo de escolha do hardware, foram avaliados em conjunto CPU e plataforma, velocidade da memória, número de lanes PCIe, configurações de GPUs em 2^n, paralelismo de tensores e escolha do motor de inferência

Configuração de hardware e pontos críticos do processo de montagem

  • A plataforma final é composta por uma placa-mãe de classe servidor, CPU EPYC, grande quantidade de memória, múltiplas fontes de alimentação e uma combinação de 8 GPUs
    • Placa-mãe Asrock Rack ROMED8-2T: 7 slots PCIe 4.0 x16, 128 lanes PCIe
    • CPU AMD Epyc Milan 7713: 2,00 GHz, boost de 3,675 GHz, 64 núcleos/128 threads
    • Memória 512 GB DDR4-3200 3DS RDIMM
    • Três fontes de alimentação de 1600 W
    • GPUs 8x RTX 3090 e 4x NVLink
  • O NVLink oferece taxa de transferência de dados de 112 GB/s entre cada par de GPUs
  • Na montagem real, surgiram problemas físicos como perfuração de furos na estrutura metálica, adição de um disjuntor de 30 A 240 V e pinos tortos no soquete da CPU
  • Também é abordada a importância de SAS Device Adapter, Redriver e Retimer para lidar com problemas de risers PCIe e garantir conexões PCIe sem erros
  • Em posts seguintes, serão tratados velocidade do NVLink, largura de banda das lanes PCIe, velocidade de transferência da VRAM e a decisão da Nvidia de bloquear, no nível de software, a largura de banda PCIe nativa P2P
  • Benchmarks de motores de inferência com suporte a paralelismo de tensores, como TensorRT-LLM, vLLM e Aphrodite Engine, além do treinamento e fine-tuning de LLMs próprios, também permanecem como próximos temas
  • Como exemplo do avanço tecnológico, é feita uma comparação com a experiência de ter ficado feliz em 2004 com um HDD de 60 GB e, 20 anos depois, ter mais que o triplo dessa capacidade nas placas de vídeo de uma única máquina
  • O objetivo do projeto é contribuir para criar coisas incríveis que surgirão no futuro, e considera-se possível que um dia 192 GB de VRAM sejam vistos como pouca coisa
  • Part II of this Blogpost Series é apresentado como a continuação do texto

1 comentários

 
brainer 2024-09-09

É só inveja mesmo..