IA servida do porão – 192 GB + 8x RTX 3090
(ahmadosman.com)- Com o aumento da escala dos experimentos pessoais com LLMs, foi criado em casa um servidor de IA dedicado com 8x RTX 3090 e um total de 192 GB de VRAM
- Como o ambiente anterior com 48 GB de VRAM já não conseguia acompanhar os experimentos, a configuração foi expandida para um nó multi-GPU pensando até na execução do Llama-3.1 405B, da Meta
- A configuração tem como base uma Asrock Rack ROMED8-2T, AMD Epyc Milan 7713, 512 GB DDR4-3200 RDIMM, três fontes de alimentação de 1600 W e 8 RTX 3090 interligadas por 4x NVLink
- O NVLink oferece taxa de transferência de 112 GB/s para cada par de GPUs, e gargalos como lanes PCIe, risers, motores de inferência e fine-tuning continuam como temas principais dos próximos posts
- Montar um grande servidor doméstico para LLMs é possível, mas as dificuldades de montagem e erros caros são muitos; por isso, a escolha e a validação do hardware determinam o sucesso ou o fracasso
Objetivo do servidor LLM no porão
- O projeto paralelo mais recente, AI from The Basement, é um servidor LLM dedicado, com 8 placas de vídeo RTX 3090 e um total de 192 GB de VRAM
- Um dos objetivos é executar o Llama-3.1 405B, da Meta
- Antes, eram usados 48 GB de VRAM para experimentos com LLMs, mas por volta de março de 2024 concluiu-se que essa capacidade já não era suficiente para acompanhar os experimentos
- No processo de escolha do hardware, foram avaliados em conjunto CPU e plataforma, velocidade da memória, número de lanes PCIe, configurações de GPUs em 2^n, paralelismo de tensores e escolha do motor de inferência
Configuração de hardware e pontos críticos do processo de montagem
- A plataforma final é composta por uma placa-mãe de classe servidor, CPU EPYC, grande quantidade de memória, múltiplas fontes de alimentação e uma combinação de 8 GPUs
- Placa-mãe Asrock Rack ROMED8-2T: 7 slots PCIe 4.0 x16, 128 lanes PCIe
- CPU AMD Epyc Milan 7713: 2,00 GHz, boost de 3,675 GHz, 64 núcleos/128 threads
- Memória 512 GB DDR4-3200 3DS RDIMM
- Três fontes de alimentação de 1600 W
- GPUs 8x RTX 3090 e 4x NVLink
- O NVLink oferece taxa de transferência de dados de 112 GB/s entre cada par de GPUs
- Na montagem real, surgiram problemas físicos como perfuração de furos na estrutura metálica, adição de um disjuntor de 30 A 240 V e pinos tortos no soquete da CPU
- Também é abordada a importância de SAS Device Adapter, Redriver e Retimer para lidar com problemas de risers PCIe e garantir conexões PCIe sem erros
- Em posts seguintes, serão tratados velocidade do NVLink, largura de banda das lanes PCIe, velocidade de transferência da VRAM e a decisão da Nvidia de bloquear, no nível de software, a largura de banda PCIe nativa P2P
- Benchmarks de motores de inferência com suporte a paralelismo de tensores, como TensorRT-LLM, vLLM e Aphrodite Engine, além do treinamento e fine-tuning de LLMs próprios, também permanecem como próximos temas
- Como exemplo do avanço tecnológico, é feita uma comparação com a experiência de ter ficado feliz em 2004 com um HDD de 60 GB e, 20 anos depois, ter mais que o triplo dessa capacidade nas placas de vídeo de uma única máquina
- O objetivo do projeto é contribuir para criar coisas incríveis que surgirão no futuro, e considera-se possível que um dia 192 GB de VRAM sejam vistos como pouca coisa
- Part II of this Blogpost Series é apresentado como a continuação do texto
1 comentários
É só inveja mesmo..