3 pontos por GN⁺ 2024-09-09 | 2 comentários | Compartilhar no WhatsApp
  • Servidor dedicado para LLM operado com 8 placas de vídeo RTX 3090. Total de 192GB de VRAM
  • Construído pensando em rodar o Llama-3.1 405B da Meta

História de fundo

  • Em março, houve dificuldades para realizar experimentos com LLM usando 48GB de VRAM
  • Sentiu-se a necessidade de mais VRAM e decidiu-se montar um novo sistema
  • Surgiram várias dúvidas, como a escolha da CPU/plataforma, a importância da velocidade da memória e a necessidade de pistas PCIe
  • Depois de muitas horas de pesquisa, a plataforma escolhida foi a seguinte
    • Placa-mãe Asrock Rack ROMED8-2T (7 slots PCIe 4.0x16, 128 pistas PCIe)
    • CPU AMD Epyc Milan 7713 (2.00 GHz/3.675GHz boost, 64 núcleos/128 threads)
    • 512GB de memória DDR4-3200 3DS RDIMM
    • 3 fontes de alimentação de 1600 watts
    • 8x GPUs RTX 3090 (4x NVLink, velocidade de transferência de dados de 112GB/s por par)

Prévia da série de posts

  • Os desafios encontrados ao montar esse sistema
    • Fazer furos na estrutura metálica e adicionar um disjuntor de 30 ampères e 240 volts
    • Entortar os pinos do soquete da CPU (não tente isso em casa)
  • Problemas com risers PCIe e a importância de adaptadores para dispositivos SAS, redrivers e retimers
  • Velocidade do NVLink, largura de banda das pistas PCIe, velocidade de transferência da VRAM e o bloqueio, em nível de software da Nvidia, da largura de banda PCIe nativa para P2P
  • Benchmark de motores de inferência como TensorRT-LLM, vLLM e Aphrodite Engine
  • Treinamento e ajuste fino de LLMs próprios

Conclusão

  • Ao ver a evolução da tecnologia, isso relembra a empolgação de quando conseguiu um HDD de 60GB em 2004
  • Daqui a 20 anos, talvez olhemos para trás e lembremos da época em que 192GB de VRAM pareciam muita capacidade
  • Com este projeto, há o desejo de contribuir para a criação das tecnologias incríveis do futuro

Resumo do GN⁺

  • Este texto trata do processo de construção de um servidor de alto desempenho para modelos de IA
  • Explica como montar um servidor LLM usando GPUs de última geração e uma CPU de alto desempenho
  • Expressa a velocidade do avanço tecnológico e a expectativa em relação ao futuro
  • Projetos com funcionalidades semelhantes incluem os sistemas DGX da Nvidia e as TPUs do Google

2 comentários

 
brainer 2024-09-09

É só inveja mesmo..

 
GN⁺ 2024-09-09
Opiniões do Hacker News
  • Primeiro comentário: montou um servidor próprio para proteger dados pessoais. Com a recente queda na qualidade das respostas das plataformas, não se arrepende de ter gasto dinheiro nessa configuração

    • faz coisas bem legais usando paralelismo de tensores e inferência em lote
    • ajusta finamente modelos com dados pessoais e gera dados sintéticos
    • no momento, está construindo um modelo do zero como projeto de aprendizado e pretende escrever um tutorial quando resolver os problemas
    • começou um blog e planeja uma série de posts sobre aprendizados e descobertas
    • está pronto para ouvir sugestões de temas ou ideias para experimentar
  • Segundo comentário: talvez no futuro a gente olhe para trás e lembre da época em que 192GB de VRAM parecia muito

    • ficou mais difícil comprar HDDs grandes para NAS, e os preços subiram bastante
    • espera que algo parecido aconteça com IA
    • as grandes empresas de nuvem não têm interesse em hardware doméstico barato e querem minerar dados por meio de serviços em nuvem
  • Terceiro comentário: projeto que usa 8 GPUs para transformar monitores 4K em uma mini parede de pixels sem bordas

    • é um projeto para composição local de vídeo e fundos gerados por IA
    • menciona o exemplo de "The Mandalorian", com fundos fotorrealistas em tempo real
  • Quarto comentário: quer saber o quanto o NVLink ajuda

    • montou uma máquina com 2 placas 3090 e quer saber se com EPYC dá para usar mais placas
    • o custo total foi de cerca de $3500, e imagina que essa configuração fique mais perto de $12-15k
  • Quinto comentário: muito legal, mas o custo é alto se não for usado de forma produtiva 24/7

  • Sexto comentário: quer comparar o custo com o Tinybox

    • com 6 placas 4090 sai por $25k, e com 6 placas 7900XTX sai por $15k
    • é o pacote completo, incluindo fonte, CPU, armazenamento, refrigeração, montagem e envio
  • Sétimo comentário: tem uma configuração parecida no porão

    • é composta por vários nós e usa 16 placas 3090 no total
    • precisou instalar um circuito de 30A 240V
  • Oitavo comentário: quer saber como conectam 8 GPUs se a placa-mãe tem 7 slots PCIe

    • pergunta se usam duas GPUs no mesmo slot, limitando a largura de banda
  • Nono comentário: quer saber como conectam a oitava placa se há 7 slots PCIe 4.0 x16

  • Décimo comentário: está ansioso para ler essa série

    • quer encontrar gráficos/dados sobre a relação custo-benefício de modelos open source
    • quer achar um valor em $/ELO (uma métrica que representa o custo de construir e operar a máquina em relação ao desempenho médio do modelo)