1 pontos por GN⁺ 2025-12-12 | 1 comentários | Compartilhar no WhatsApp
  • Experimento de modificação de um servidor Nvidia Grace-Hopper GH200 para uso como desktop de IA pessoal, alcançando desempenho suficiente para executar localmente modelos de 235B parâmetros
  • Compra de um sistema GH200 usado no Reddit por 7.500 euros e remontagem de um servidor com refrigeração líquida de datacenter como um desktop com refrigeração a ar
  • Diversas etapas de troubleshooting de hardware, incluindo exibição de temperatura da GPU em 16,77 milhões de °C, danos no circuito das ventoinhas e recuperação com solda manual, por causa de problemas de refrigeração, energia e erros de sensores
  • No fim, foi concluído um sistema estável combinando 4 coolers líquídos, adaptadores usinados em CNC e peças impressas em 3D
  • Com custo total de cerca de 9.000 euros, foi montada uma workstation de IA de altíssimo desempenho por menos do que o preço de uma única GPU H100

Compra do servidor Grace-Hopper e especificações

  • Foi encontrado no fórum r/LocalLLaMA do Reddit um anúncio de um servidor GH200 por 10.000 euros e, após negociação, a compra foi fechada em 7.500 euros
    • Configuração: 2× Grace-Hopper Superchip, 2× CPUs Grace de 72 núcleos, 2× GPUs H100, 480GB de LPDDR5X, 96GB de HBM3, total de 1.152GB de memória de alta velocidade
    • Largura de banda NVLink-C2C de 900GB/s, consumo de 1.000~2.000W, com PSU de 3.000W incluída
  • O vendedor era a GPTshop.ai, empresa que vende servidores Nvidia convertidos em desktops
    • O sistema era originalmente um servidor com refrigeração líquida, convertido em um “frankensystem” com refrigeração a ar
    • Tinha aparência rústica, não podia ser montado em rack e vinha com fonte de alimentação de 48V

Desmontagem e limpeza do servidor

  • O servidor estava em estado de forte contaminação por poeira, e suas 8 ventoinhas de alta potência produziam ruído no nível de um aspirador de pó
    • Era barulhento demais para uso doméstico, então foi desmontado, limpo e remontado
  • Foram usados vários litros de álcool isopropílico para lavar toda a placa-mãe, seguida de uma semana de secagem sobre um piso aquecido
  • O módulo Grace-Hopper foi desmontado para verificar seu estado interno e explorar sua estrutura

Reconfiguração do sistema de refrigeração líquida

  • Por causa do risco de vazamentos, foram usados 4 coolers AIO Arctic Liquid Freezer III 420 em vez de blocos personalizados
    • Após medir as dimensões dos dies de GPU e CPU, foi projetado um bloco adaptador no Fusion 360
    • Protótipos foram produzidos com uma impressora 3D Bambu X1, e depois as peças finais foram concluídas com usinagem CNC
  • Após a usinagem, o óleo residual foi removido e a instalação foi concluída, garantindo o desempenho térmico

Montagem do desktop

  • Foi criada uma estrutura com perfis de alumínio ProfilAlu, projetada no Fusion 360
    • Dezenas de peças de montagem para PCB e filtros foram produzidas por impressão 3D
    • Vários quilos de filamento foram usados para estabilizar a estrutura

Principais problemas encontrados

  • Durante a conexão da alimentação das ventoinhas, ocorreu um “pop” com fumaça, danificando parte do circuito dos headers de ventoinha
    • Estima-se que MOSFETs tenham sido danificados por cálculo incorreto de corrente
    • A alimentação das ventoinhas foi substituída por um adaptador separado de 12V-5A
  • Por causa do erro das ventoinhas, o BMC (Baseboard Management Controller) bloqueava a inicialização
    • A verificação das ventoinhas foi contornada desativando phosphor-sensor-monitor.service

Erro de temperatura da GPU e reparo do circuito

  • Durante a inicialização, a temperatura da GPU era exibida como 16.777.214°C, fazendo o sistema desligar automaticamente
    • Esse valor corresponde ao máximo de um inteiro de 24 bits (2²⁴-2) e indica erro no sinal do sensor
  • Uma inspeção ao microscópio confirmou danos em um capacitor de 100nF e um resistor de 4,7kΩ
    • O circuito foi recuperado com microsolda e fixado com máscara UV
    • Após a remontagem, o boot normal foi concluído com sucesso

Configuração final e desempenho

  • Peças adicionais fabricadas:
    • Suporte para SSD E1.S de 8TB, painel traseiro para PSU de 3kW e malha de proteção para o radiador
  • O problema de inicialização da GPU foi resolvido com a desativação do NVLink
    • Adição de NVreg_NvLinkDisable=1 em /etc/modprobe.d/nvidia-disable-nvlink.conf

Resultados de benchmark

  • Compilação do Llama.cpp em 90 segundos com 144 núcleos, e os testes com modelos grandes mostraram:
    • gpt-oss-120b-Q4_K_M: prompt 2974.79, tokens 195.84
    • GLM-4.5-Air-Q4_K_M: prompt 1936.65, tokens 100.71
    • Qwen3-235B-A22B-Instruct: prompt 1022.79, tokens 65.90
  • Consumo de cerca de 300W por GPU, ainda com margem em relação ao máximo (900W)

Detalhamento de custos

  • Servidor Grace-Hopper €7.500, SSD €250, adaptadores CNC €700, coolers líquidos €180
  • Estrutura €200, painel de vidro €40, material para impressão 3D €40, outras peças €50
  • Álcool isopropílico para limpeza €20, fonte 12V €10, iluminação LED €10
  • Custo total de cerca de €9.000, mais barato que uma única GPU H100

Conclusão

  • Foi concluído um desktop capaz de executar localmente modelos de 235B parâmetros
  • No processo de converter hardware de nível datacenter para uso pessoal, foram superados vários obstáculos, como erros de sensor, danos em circuitos e problemas de refrigeração
  • O resultado foi um exemplo de construção de uma workstation de alto desempenho para pesquisa em IA com baixo custo

1 comentários

 
GN⁺ 2025-12-12
Comentários do Hacker News
  • Comprei hardware de IA de nível de datacenter e, depois de convertê-lo de refrigeração líquida para ar e depois de volta para líquida, passando por inúmeras crises como a temperatura da GPU aparecendo como 16 milhões de graus, consegui terminar um desktop capaz de rodar modelos de 235B parâmetros em casa
    É a história de uma decisão imprudente, de resolução criativa de problemas e de uma tentativa de transformar equipamento de datacenter em algo para uso cotidiano

    • Descobri que, se eu instruísse o driver a ignorar completamente o NVLINK, as GPUs inicializavam de forma independente via PCIe
      Levei uma semana para encontrar isso, e resolvi graças ao Reddit. Fico curioso se esse tipo de problema também pode acontecer em todos os datacenters
    • Vi o mesmo post no Reddit e pensei em comprar também, mas desisti por morar nos EUA. Ainda bem que não era golpe
    • Ele disse que pagou 7.500 euros em dinheiro, e fiquei curioso se sacou tudo isso em cédulas. Queria saber como conseguiu retirar um valor tão alto no banco
    • Fiquei impressionado com a parte de fixar componentes soldados com epóxi. Parece algo que só dá para fazer tendo muita confiança na própria habilidade com solda. Fiquei pensando se ele não tinha uma pistola de cola quente
  • Também tive uma experiência parecida. Durante 3 anos, quis montar um servidor gamer em rack para usar com meu filho, mas como a casa é pequena e minha esposa não permitiu, aproveitei a usina solar fotovoltaica (90 kWp) da casa dos meus pais e um servidor em rack de lá
    Há dois meses comprei um Supermicro SYS-7049GP-TRT no eBay por 1.400 euros e, quando abri por dentro, havia uma Nvidia V100S 32GB lá. Vendi por 1.600 euros e troquei por dois CPUs Xeon 6254. Depois comprei duas Blackwell RTX 4000 Pro e agora consigo tanto jogar com meu filho quanto fazer experimentos com LLMs
    Esse gabinete suporta 4 GPUs duplas, então talvez um dia eu possa fazer upgrade para quatro RTX 6000, totalizando 384GB de VRAM. Equipamento corporativo usado é robusto, tem ótimo custo-benefício e é um hobby muito divertido

  • É engraçado ver um servidor de 20 kg que custa 7,5 mil euros em cima de uma mesa IKEA LACK de 5 euros. A LACK suporta no máximo 25 kg, então parece perigoso

    • Na verdade, o gabinete original pesava 20 kg, e agora, com estrutura de alumínio e painéis de vidro, está em algo como 40 kg. Pensando bem, acho que realmente não deveria ficar em cima da LACK
    • Ainda assim, a mesa LACK é surpreendentemente resistente. Muita gente usa para servidores ou equipamentos de rede, e a wiki LackRack tem vários exemplos. Eu mesmo já coloquei mais de 100 kg em uma
    • Mas deve haver pelo menos uma margem de segurança de 25%, né, brincando
  • Achei engraçada a frase “dirigi duas horas para ir buscar”. É literalmente Your mileage may vary

  • Fiquei impressionado que, como foi tão doloroso fazer a GPU funcionar, ele deixou os comandos de instalação para os exploradores que vierem depois
    Foi preciso instalar o driver NVIDIA-Linux-aarch64, e toda vez que vejo esse tipo de comando incompreensível, bate aquela identificação de “eu também já passei por isso”

  • Falando sério, fiquei curioso se esse tipo de equipamento também entrega um bom desempenho em jogos. Como é otimizado para IA/ML, talvez jogos comuns nem rodem tão bem assim
    E também fiquei pensando se a parte de “fui até uma fazenda no meio da floresta” não foi meio perigosa

    • Quando o vendedor disse “o servidor está na traseira da van branca” e mostrou a parte de trás do carro, deu um pouco de medo. Felizmente, depois vi a oficina dele e fiquei mais tranquilo
    • Essas GPUs não têm saída HDMI nem DisplayPort, então para jogar é preciso rodar via VM
    • Para jogos, a combinação ideal é RTX PRO 6000 Blackwell + AMD 9800X3D + RAM de baixa latência + NVMe. Acima disso, a eficiência em relação ao retorno cai bastante. CPUs de servidor baseadas em ARM também causam problemas com DRM
    • O pessoal da LTT também testou uma GPU de IA parecida em vídeo, e o desempenho em games foi péssimo. Uma placa intermediária de consumidor entregou resultado melhor custando um décimo do preço
  • Esse tipo de post é muito legal. Esses relatos de sucesso DIY são parte do charme do Hacker News

    • Sim. Dá inveja, mas ao mesmo tempo inspira aquela sensação de “eu também poderia fazer isso”
  • Claro, ainda é um ótimo negócio, mas comparar com o preço de um H100 novo é um pouco exagerado. Hoje dá para comprar uma RTX 6000 Pro por 7 a 8 mil dólares, com desempenho parecido. Além disso, ela ainda cabe numa workstation comum. A depreciação de equipamento corporativo usado é enorme

    • Ainda assim, continua sendo um excelente negócio. O motivo está nas diferenças sutis entre RAM e VRAM
      A Blackwell é duas vezes mais rápida que a H100 em FP8, mas a comparação real aqui é em FP4, então a situação muda. A largura de banda de VRAM, com HBM3, é de 4,9 TB/s, 2,5 vezes maior que os 1,8 TB/s da RTX 6000 Pro
      O NVLink-C2C oferece 900 GB/s entre placas, cerca de 5 vezes o PCIe 5, então em LLMs grandes isso ajuda a reduzir gargalos
      Por exemplo, no benchmark do GPT-OSS-120B, a RTX 6000 Pro gera 145 tokens por segundo, enquanto a GH200 gera 195 tokens por segundo
    • Além disso, ele tem duas H100. Para comprar duas RTX 6000 Pro, seria preciso gastar entre 15 mil e 16 mil dólares, e só a RAM incluída já vale mais de 7 mil dólares
  • Parece literalmente viver um sonho cyberpunk no mundo real. Impressiona a coragem de tentar algo assim

  • Pedi recomendações de lojas onde seja possível comprar equipamento corporativo usado. A maioria parece ficar na Califórnia, e fiquei curioso se também há opções na região de NY/NJ

    • Dá para rastrear vendedores que anunciam vários produtos no eBay. Existem bastantes vendedores assim pelo país inteiro