Como rodar o modelo DeepSeek R1 671b localmente em um servidor EPYC de US$ 2000

(digitalspaceport.com)

3 pontos por GN⁺ 2025-02-02 | 1 comentários | Compartilhar no WhatsApp

O Deepseek AI Rig, baseado em um sistema AMD EPYC Rome, oferece desempenho excelente
No modelo Q4 671b, registra de 4.25 a 3.5 TPS, mostrando que é plenamente viável rodá-lo apenas com CPU
Esse sistema pode funcionar sem uma grande quantidade de VRAM de GPU, e pode ser um projeto divertido para quem gosta de desafios técnicos
Como a versão destilada tem desempenho inferior, é recomendado usar o "modelo completo"
- Suporta janela de contexto acima de 16K, oferecendo desempenho melhor

Hardware de computação CPU para IA local

O sistema montado com base no guia anterior de quad 3090 continua muito poderoso. A placa-mãe MZ32-AR0 permite montar 512GB a 1TB de RAM do sistema a um custo baixo. Está sendo usada RAM DDR4 2400, mas o desempenho pode melhorar com RAM DDR4 ECC de 3200.
Componentes e custos:
- Estrutura de rack: $55
- Placa-mãe MZ32-AR0: $500
- Water cooler de 420mm Corsair h170i elite capellix xt: $170
- AMD EPYC 7702 de 64 núcleos: $650
- 512GB de RAM ECC 2400: $400
- 1TB NVMe – Samsung 980 Pro: $75
- Fonte 850W: $80
Custo total: cerca de $2000

Montagem do rack

Monte da mesma forma que no guia anterior, mas sem a GPU e a placa riser
Se você pretende adicionar uma GPU depois, é melhor usar desde o início uma fonte de 1500W ou 1600W
Para reduzir a temperatura dos módulos de RAM, é recomendado montar uma parede de ventilação com quatro ventoinhas de 80mm

Observações sobre upgrade da placa-mãe

Se for usar a CPU AMD EPYC 7V13, é recomendável usar a placa-mãe MZ32-AR0 versão V3
A versão V1 da placa-mãe pode não oferecer suporte a CPUs Milan, então é preciso atualizar a BIOS para V3

Configuração do software self-hosted de IA local

É recomendado instalar a versão de servidor do Ubuntu 24.04
Pela configuração do BMC, defina o IP de rede como IP fixo
Em configurações da BIOS, faça as seguintes alterações:
- Definir NPS como 1
- Definir CCD como Auto
- Desativar SMT
- Desativar SVM
- Desativar IOMMU
- Definir cTDP como 200
- Definir deterministic control como manual e ajustar o seletor para performance
- Definir quick power policy como performance
- Definir BoostFMax como manual e ajustar o valor para 3400

Instalação do Ollama

Instale o Ollama com os seguintes comandos:

curl -L https://ollama.com/download/ollama-linux-amd64.tgz -o ollama-linux-amd64.tgz  
sudo tar -C /usr -xzf ollama-linux-amd64.tgz  
sudo useradd -r -s /bin/false -U -m -d /usr/share/ollama ollama  
sudo usermod -a -G ollama $(whoami)

Configure as variáveis de ambiente e crie o arquivo ollama.service para registrá-lo como serviço

Download do modelo DeepSeek 671b

Baixe o modelo DeepSeek 671b com o seguinte comando:
```
ollama pull deepseek-r1:671b  
```
Esse modelo ocupa cerca de 400GB em disco, então é preciso garantir espaço de armazenamento suficiente

Instalação do OpenWEBUI

Instale o OpenWEBUI usando Docker
Configure e execute o serviço OpenWEBUI com Docker Compose

Conectando OpenWEBUI ao Ollama

Nas configurações do OpenWEBUI, adicione o servidor Ollama e verifique o estado da conexão
Nos parâmetros avançados, ajuste opções como GPU, Reasoning Effort, Context Length e num_thread

Teste de execução

No OpenWEBUI, inicie um novo chat e selecione o modelo DeepSeek-r1:671b para fazer um teste de conversa

Seguindo este guia, é possível rodar o modelo DeepSeek R1 671b localmente com um orçamento de cerca de $2000

1 comentários

GN⁺ 2025-02-02

Comentários do Hacker News

O custo para executar o modelo 671B com quantização Q4 em um servidor Epyc de soquete único é de $2K, usando 512GB de RAM. Em Q8, ele oferece 6-8 TPS em um servidor Epyc de soquete duplo com 768GB de RAM, ao custo de $6K. Há curiosidade sobre o impacto da velocidade da RAM no TPS.
Online, o custo do R1 é de $2/MTok, e esse equipamento faz mais de 4 tok/s, resultando em um custo de $0,04 por hora. O custo de energia é estimado em $0,20 por hora. Tirando a privacidade, não parece ter muito sentido.
O aspecto estranho da IA hoje é querer rodar os melhores modelos, mas o hardware custa caro. Nos anos 1990, era possível rodar Linux em hardware barato. Os modelos de IA mais recentes exigem mais RAM. Há curiosidade sobre se isso já aconteceu antes. Jogos de computador podem ser um bom exemplo.
Parece mais interessante obter 5-10 tokens/sec com modelos menores (33b-70b). Não há vontade de gastar dinheiro em uma GPU de $3k ou em um equipamento de $2k.
Há curiosidade sobre se um modelo pequeno que só faça tradução entre inglês e espanhol, ou um modelo que entenda utilitários Unix e bash, faria sentido. Não está claro se limitar o conteúdo do treinamento afeta a qualidade do resultado ou o tamanho do modelo.
Foi montada uma workstation com EPYC 9274F e 384GB de RAM, mas o desempenho esperado não foi alcançado. Vários testes de benchmark foram feitos, mas os resultados ficaram em menos da metade do benchmark da Fujitsu.
É surpreendente que o NVIDIA Digits de $3000 não seja mencionado com mais frequência. Havia ceticismo em relação à IA, mas agora há planos de rodar DeepSeek localmente.
É surpreendente o que se pode comprar por $2K. Há procura por sugestões para montar um desktop de baixo consumo.
Como youtuber, foram compartilhadas estatísticas sobre consumo de energia e velocidade da RAM. O consumo em idle é de 60w, sob carga é de 260w, e a velocidade da RAM é 2400.
O modelo foi executado em um r6a.16xlarge, mas após o primeiro prompt o carregamento do modelo demora muito. Com 512GB de RAM, não é possível usar um contexto maior que 4k. Pode haver algo passando despercebido por falta de familiaridade com a configuração do modelo.