13 pontos por GN⁺ 2025-02-12 | 3 comentários | Compartilhar no WhatsApp
  • Muito dinheiro está sendo investido no desenvolvimento de ferramentas de IA, e muitos serviços operam assumindo prejuízo
  • Os serviços das grandes empresas de tecnologia estão sendo oferecidos de graça ou a baixo custo para dominar o mercado, e no fim há uma alta probabilidade de que "os modelos de IA sejam manipulados por publicidade e interesses políticos"
  • A solução é "operar seu próprio modelo de IA"
    • Empresas como a DeepSeek estão sacudindo o mercado ao disponibilizar seus modelos gratuitamente. Esses modelos podem ter seus vieses removidos e podem ser executados em hardware pessoal

Desafios de montar um computador pessoal de IA

  • Para executar um LLM localmente, é preciso comprar uma placa de vídeo potente da Nvidia ou um dispositivo da Apple
  • Quanto mais memória houver, maiores serão os modelos que podem ser executados, o que melhora significativamente a qualidade da saída
    • É necessário um GPU da Nvidia ou um dispositivo Apple (ambos caros)
    • É necessário no mínimo 24GB ou mais de VRAM ou RAM
  • Como reduzir custos: comprar equipamentos usados também é uma opção, e a largura de banda da memória e outras especificações também são importantes

Processo de montagem de um computador de IA de baixo custo

  • Objetivo: montar um sistema capaz de executar modelos de IA localmente por cerca de 1.700 euros
  • Configuração final:
    • HP Z440 Workstation (Xeon de 12 núcleos, 128GB de RAM)
    • 2 GPUs Nvidia Tesla P40 (24GB de VRAM cada, 48GB no total)
    • Fonte NZXT C850 Gold
    • Gainward GT 1030 (GPU auxiliar para saída de vídeo)
    • Ventoinhas de refrigeração personalizadas e adaptadores de energia

Principais problemas técnicos e como resolvê-los

1. Problema de refrigeração de GPUs para servidor

  • A Tesla P40 foi projetada para uso em ambiente de servidor e não tem ventoinha própria
  • Solução: suporte de ventoinha impresso em 3D e controle de fluxo de ar forçado
  • Ajuste da velocidade das ventoinhas para equilibrar adequadamente temperatura e ruído

2. Problema de compatibilidade da workstation da HP

  • A HP limita o uso a componentes próprios
  • Foi necessário comprar separadamente adaptadores para a fonte e para a conexão com a placa

3. Problema de boot na BIOS

  • A Tesla P40 não tem porta de saída de vídeo → não inicializa
  • Resolvido com a adição de uma GPU GT 1030 de baixo custo

Resultados dos testes de desempenho

1. Velocidade de inferência (tokens por segundo)

  • Mistral-Small (modelo 24B): 15.23
  • Gemma2 (modelo 27B): 13.90
  • Qwen2.5-Coder (modelo 32B): 10.75
  • Llama3.3 (modelo 70B): 5.35
  • DeepSeek-R1 (modelo 70B): 5.30

2. Consumo de energia

  • Quando o computador está em espera, consome cerca de 80W
  • Ao carregar um modelo 32B, sobe para 123W, e em execução chega a 241W
  • No caso de um modelo 70B, consome 166W ao carregar e até 293W durante a execução
  • Ou seja, quanto maior o modelo, maior o consumo de energia, e como manter um modelo carregado na GPU também consome bastante energia, é importante adotar uma estratégia de manter o modelo ativo apenas quando necessário

Conclusão: montar um servidor pessoal de IA vale a pena?

  • Montagem bem-sucedida de um sistema de IA totalmente independente
  • É possível executar modelos de porte médio localmente por um preço relativamente baixo
  • Satisfação por conseguir operar modelos de IA mesmo sem equipamentos modernos e caros
  • Montagem de um sistema flexível, capaz de se adaptar a mudanças de longo prazo na tecnologia de IA

3 comentários

 
crawler 2025-02-13

Também vi uma configuração que roda o R1 sem GPU nenhuma, só com CPU e SSD, mas acho que isso fica meio questionável.

 
dhy0613 2025-02-13

| Pelo mesmo preço (US$ 1.799), dá para comprar um Mac Mini com 48 GB de memória unificada e M4 Pro. Consome pouca energia, é silencioso e provavelmente tem desempenho melhor do que essa configuração. Gostei de ler este texto, mas, na mesma situação, eu compraria um Mac.

Era exatamente o que eu queria dizer, mas já apareceu nas opiniões do Hacker News.

Como o preço dos tokens está ficando cada vez mais barato, a não ser que seja para fazer fine-tuning ou gerar imagens, fico pensando se realmente vale a pena...

 
GN⁺ 2025-02-12
Comentários do Hacker News
  • Fiz algo parecido comprando uma K80 e uma M40 baratas no eBay. Os drivers da K80 foram um verdadeiro pesadelo. Os 24 GB de VRAM por US$ 50 são atraentes, mas não recomendo por causa dos problemas de driver. Consegui instalar as GPUs porque a workstation HP tinha uma fonte de alimentação de 1200 watts. Essas GPUs não têm refrigeração própria, então fiz suportes em uma impressora 3D e instalei ventoinhas Noctua para rodar 24/7. Funcionou muito melhor do que eu esperava, e a temperatura nunca passou de 60 graus. A CPU também se beneficiou disso. As ventoinhas ficam na frente e atrás do gabinete; a da frente puxa o ar e a de trás expele. Há também duas ventoinhas na frente da GPU. Comprei a workstation recondicionada por US$ 600, as GPUs por US$ 120 e as ventoinhas por cerca de US$ 60. Ainda não publiquei os arquivos STL, porque é um caso de uso muito específico.

  • Pelo mesmo preço (US$ 1799), dá para comprar um Mac Mini com 48 GB de memória unificada e M4 Pro. Ele consome pouca energia, é silencioso e provavelmente terá desempenho melhor do que essa configuração. Gostei de ler o artigo, mas na mesma situação eu compraria um Mac.

  • Quero montar uma máquina para LLM local. Testei modelos em um MBP M3 Max com 128 GB de RAM e quero um servidor local dedicado. Também quero experimentar o Proxmox. Estou rodando OpenWebUI e LibreChat em um "servidor de apps" local e estou satisfeito. Mas toda vez que penso em comprar algo mais potente, sinto que o ROI não fecha. Isso é ainda mais verdade em um setor que muda tão rápido. Privacidade é um fator que não dá para ignorar, mas é difícil superar o custo da inferência online.

  • Modelos hospedados localmente são fofos, divertidos e conseguem escrever piadas, além de realizar tarefas pessoais. Mas ficam aquém quando comparados aos modelos acessíveis via API. Seria ótimo poder rodar o deepseek-r1-678b localmente, mas no momento o custo operacional é maior do que o custo de capital.

  • Um meio-termo é alugar uma VPS com GPU quando precisar. Dá para usar uma H100 por US$ 2/hora. Não é tão privado quanto algo totalmente local e offline, mas é melhor do que uma API SaaS. Espero que, em 1 a 3 anos, rodar algo útil localmente passe a ser economicamente viável.

  • Como outras pessoas disseram, dá para usar um Mac potente pelo mesmo preço e com menor consumo de energia. Fico me perguntando por que a Apple não entra no mercado de chips de IA para empresas e compete com a Nvidia. A Apple provavelmente conseguiria projetar seu próprio ASIC.

  • "Ter sua própria IA" é um ótimo hobby para fazer em casa, mas você acaba gastando muito tempo e dinheiro com hardware. Recomendo dar uma olhada na dream machine do Mitko Vasilev. Sem um caso de uso claro, você só precisa de modelos pequenos ou de uma velocidade lenta de geração de tokens. Se o objetivo é construir e aprender sobre IA, é mais econômico alugar GPU/TPU quando necessário.

  • Não acho que comprar 2 placas Nvidia Tesla P40 por 660 euros possa ser chamado de "baixo orçamento". Dá para usar modelos "pequenos" ou "médios" com placas mais baratas. A Nvidia GeForce RTX 3060 pode ser encontrada no mercado de usados por 200 a 250 euros. Chamar 48 GB de VRAM de algo de baixo orçamento é exagero. Essa configuração é para semiprofissionais ou profissionais. Usar modelos médios ou pequenos exige concessões, mas fazer concessões dentro do orçamento também é importante.

  • O problema com esse tipo de investimento é que no mês seguinte pode sair um modelo melhor. Pode ser que você precise de mais RAM, ou de menos RAM do que o melhor modelo atual. A infraestrutura em nuvem resolve esse problema. O custo por execução é maior, mas, se o uso for esporádico, você pode economizar. Fico curioso para saber como o pessoal do HN está lidando com isso.

  • Fico curioso se alguém já tentou rodar inferência de LLM usando um cluster de SBCs. Por exemplo, a Radxa ROCK 5C tem 32 GB de memória e NPU, e custa cerca de 300 euros. Não conheço bem a arquitetura dos LLMs modernos, mas deveria ser possível dividir as camadas entre vários nós. Não há tanto dado assim para transferir. Não teria o desempenho de um Mac moderno ou de uma GPU da Nvidia, mas talvez seja uma forma aceitável e barata de conseguir muita memória. Também tenho curiosidade sobre o estado atual da inferência CPU + GPU. O processamento do prompt é limitado por computação e memória, mas a geração de tokens é limitada principalmente por memória. Gostaria de saber se existe alguma ferramenta que carregue algumas camadas na GPU para o processamento inicial do prompt e depois mude para inferência na CPU. No último experimento que fiz, era possível rodar algumas camadas na GPU e outras na CPU. Parece que seria mais eficiente rodar tudo na GPU e, quando a geração de tokens ficar limitada por memória, mudar para a CPU.