- Servidor dedicado para LLM operado com 8 placas de vídeo RTX 3090. Total de 192GB de VRAM
- Construído pensando em rodar o Llama-3.1 405B da Meta
História de fundo
- Em março, houve dificuldades para realizar experimentos com LLM usando 48GB de VRAM
- Sentiu-se a necessidade de mais VRAM e decidiu-se montar um novo sistema
- Surgiram várias dúvidas, como a escolha da CPU/plataforma, a importância da velocidade da memória e a necessidade de pistas PCIe
- Depois de muitas horas de pesquisa, a plataforma escolhida foi a seguinte
- Placa-mãe Asrock Rack ROMED8-2T (7 slots PCIe 4.0x16, 128 pistas PCIe)
- CPU AMD Epyc Milan 7713 (2.00 GHz/3.675GHz boost, 64 núcleos/128 threads)
- 512GB de memória DDR4-3200 3DS RDIMM
- 3 fontes de alimentação de 1600 watts
- 8x GPUs RTX 3090 (4x NVLink, velocidade de transferência de dados de 112GB/s por par)
Prévia da série de posts
- Os desafios encontrados ao montar esse sistema
- Fazer furos na estrutura metálica e adicionar um disjuntor de 30 ampères e 240 volts
- Entortar os pinos do soquete da CPU (não tente isso em casa)
- Problemas com risers PCIe e a importância de adaptadores para dispositivos SAS, redrivers e retimers
- Velocidade do NVLink, largura de banda das pistas PCIe, velocidade de transferência da VRAM e o bloqueio, em nível de software da Nvidia, da largura de banda PCIe nativa para P2P
- Benchmark de motores de inferência como TensorRT-LLM, vLLM e Aphrodite Engine
- Treinamento e ajuste fino de LLMs próprios
Conclusão
- Ao ver a evolução da tecnologia, isso relembra a empolgação de quando conseguiu um HDD de 60GB em 2004
- Daqui a 20 anos, talvez olhemos para trás e lembremos da época em que 192GB de VRAM pareciam muita capacidade
- Com este projeto, há o desejo de contribuir para a criação das tecnologias incríveis do futuro
Resumo do GN⁺
- Este texto trata do processo de construção de um servidor de alto desempenho para modelos de IA
- Explica como montar um servidor LLM usando GPUs de última geração e uma CPU de alto desempenho
- Expressa a velocidade do avanço tecnológico e a expectativa em relação ao futuro
- Projetos com funcionalidades semelhantes incluem os sistemas DGX da Nvidia e as TPUs do Google
2 comentários
É só inveja mesmo..
Opiniões do Hacker News
Primeiro comentário: montou um servidor próprio para proteger dados pessoais. Com a recente queda na qualidade das respostas das plataformas, não se arrepende de ter gasto dinheiro nessa configuração
Segundo comentário: talvez no futuro a gente olhe para trás e lembre da época em que 192GB de VRAM parecia muito
Terceiro comentário: projeto que usa 8 GPUs para transformar monitores 4K em uma mini parede de pixels sem bordas
Quarto comentário: quer saber o quanto o NVLink ajuda
Quinto comentário: muito legal, mas o custo é alto se não for usado de forma produtiva 24/7
Sexto comentário: quer comparar o custo com o Tinybox
Sétimo comentário: tem uma configuração parecida no porão
Oitavo comentário: quer saber como conectam 8 GPUs se a placa-mãe tem 7 slots PCIe
Nono comentário: quer saber como conectam a oitava placa se há 7 slots PCIe 4.0 x16
Décimo comentário: está ansioso para ler essa série