Como rodar o modelo DeepSeek R1 671b localmente em um servidor EPYC de US$ 2000
(digitalspaceport.com)- O Deepseek AI Rig, baseado em um sistema AMD EPYC Rome, oferece desempenho excelente
- No modelo Q4 671b, registra de 4.25 a 3.5 TPS, mostrando que é plenamente viável rodá-lo apenas com CPU
- Esse sistema pode funcionar sem uma grande quantidade de VRAM de GPU, e pode ser um projeto divertido para quem gosta de desafios técnicos
- Como a versão destilada tem desempenho inferior, é recomendado usar o "modelo completo"
- Suporta janela de contexto acima de 16K, oferecendo desempenho melhor
Hardware de computação CPU para IA local
- O sistema montado com base no guia anterior de quad 3090 continua muito poderoso. A placa-mãe MZ32-AR0 permite montar 512GB a 1TB de RAM do sistema a um custo baixo. Está sendo usada RAM DDR4 2400, mas o desempenho pode melhorar com RAM DDR4 ECC de 3200.
- Componentes e custos:
- Estrutura de rack: $55
- Placa-mãe MZ32-AR0: $500
- Water cooler de 420mm Corsair h170i elite capellix xt: $170
- AMD EPYC 7702 de 64 núcleos: $650
- 512GB de RAM ECC 2400: $400
- 1TB NVMe – Samsung 980 Pro: $75
- Fonte 850W: $80
- Custo total: cerca de $2000
Montagem do rack
- Monte da mesma forma que no guia anterior, mas sem a GPU e a placa riser
- Se você pretende adicionar uma GPU depois, é melhor usar desde o início uma fonte de 1500W ou 1600W
- Para reduzir a temperatura dos módulos de RAM, é recomendado montar uma parede de ventilação com quatro ventoinhas de 80mm
Observações sobre upgrade da placa-mãe
- Se for usar a CPU AMD EPYC 7V13, é recomendável usar a placa-mãe MZ32-AR0 versão V3
- A versão V1 da placa-mãe pode não oferecer suporte a CPUs Milan, então é preciso atualizar a BIOS para V3
Configuração do software self-hosted de IA local
- É recomendado instalar a versão de servidor do Ubuntu 24.04
- Pela configuração do BMC, defina o IP de rede como IP fixo
- Em configurações da BIOS, faça as seguintes alterações:
- Definir NPS como 1
- Definir CCD como Auto
- Desativar SMT
- Desativar SVM
- Desativar IOMMU
- Definir cTDP como 200
- Definir deterministic control como manual e ajustar o seletor para performance
- Definir quick power policy como performance
- Definir BoostFMax como manual e ajustar o valor para 3400
Instalação do Ollama
-
Instale o Ollama com os seguintes comandos:
curl -L https://ollama.com/download/ollama-linux-amd64.tgz -o ollama-linux-amd64.tgz sudo tar -C /usr -xzf ollama-linux-amd64.tgz sudo useradd -r -s /bin/false -U -m -d /usr/share/ollama ollama sudo usermod -a -G ollama $(whoami) -
Configure as variáveis de ambiente e crie o arquivo ollama.service para registrá-lo como serviço
Download do modelo DeepSeek 671b
-
Baixe o modelo DeepSeek 671b com o seguinte comando:
ollama pull deepseek-r1:671b -
Esse modelo ocupa cerca de 400GB em disco, então é preciso garantir espaço de armazenamento suficiente
Instalação do OpenWEBUI
- Instale o OpenWEBUI usando Docker
- Configure e execute o serviço OpenWEBUI com Docker Compose
Conectando OpenWEBUI ao Ollama
- Nas configurações do OpenWEBUI, adicione o servidor Ollama e verifique o estado da conexão
- Nos parâmetros avançados, ajuste opções como GPU, Reasoning Effort, Context Length e num_thread
Teste de execução
- No OpenWEBUI, inicie um novo chat e selecione o modelo DeepSeek-r1:671b para fazer um teste de conversa
Seguindo este guia, é possível rodar o modelo DeepSeek R1 671b localmente com um orçamento de cerca de $2000
1 comentários
Comentários do Hacker News
O custo para executar o modelo 671B com quantização Q4 em um servidor Epyc de soquete único é de $2K, usando 512GB de RAM. Em Q8, ele oferece 6-8 TPS em um servidor Epyc de soquete duplo com 768GB de RAM, ao custo de $6K. Há curiosidade sobre o impacto da velocidade da RAM no TPS.
Online, o custo do R1 é de $2/MTok, e esse equipamento faz mais de 4 tok/s, resultando em um custo de $0,04 por hora. O custo de energia é estimado em $0,20 por hora. Tirando a privacidade, não parece ter muito sentido.
O aspecto estranho da IA hoje é querer rodar os melhores modelos, mas o hardware custa caro. Nos anos 1990, era possível rodar Linux em hardware barato. Os modelos de IA mais recentes exigem mais RAM. Há curiosidade sobre se isso já aconteceu antes. Jogos de computador podem ser um bom exemplo.
Parece mais interessante obter 5-10 tokens/sec com modelos menores (33b-70b). Não há vontade de gastar dinheiro em uma GPU de $3k ou em um equipamento de $2k.
Há curiosidade sobre se um modelo pequeno que só faça tradução entre inglês e espanhol, ou um modelo que entenda utilitários Unix e bash, faria sentido. Não está claro se limitar o conteúdo do treinamento afeta a qualidade do resultado ou o tamanho do modelo.
Foi montada uma workstation com EPYC 9274F e 384GB de RAM, mas o desempenho esperado não foi alcançado. Vários testes de benchmark foram feitos, mas os resultados ficaram em menos da metade do benchmark da Fujitsu.
É surpreendente que o NVIDIA Digits de $3000 não seja mencionado com mais frequência. Havia ceticismo em relação à IA, mas agora há planos de rodar DeepSeek localmente.
É surpreendente o que se pode comprar por $2K. Há procura por sugestões para montar um desktop de baixo consumo.
Como youtuber, foram compartilhadas estatísticas sobre consumo de energia e velocidade da RAM. O consumo em idle é de 60w, sob carga é de 260w, e a velocidade da RAM é 2400.
O modelo foi executado em um r6a.16xlarge, mas após o primeiro prompt o carregamento do modelo demora muito. Com 512GB de RAM, não é possível usar um contexto maior que 4k. Pode haver algo passando despercebido por falta de familiaridade com a configuração do modelo.