Compartilhando a experiência de montar uma máquina local para LLM em casa

6 pontos por popopo 2025-11-09 | 9 comentários | Compartilhar no WhatsApp

Depois de ver o Nvidia DGX Spark, criei grandes expectativas para o GB10, mas pelas análises parece que a decepção foi maior. A largura de banda da memória parece estar limitando o restante do desempenho.

Houve casos em que o desempenho ficou parecido com o do AMD Strix Halo ou até melhor.

(vem com memória unificada de 64GB, mas há opção de 128GB, com possibilidade de alocar 96GB de vRAM)

Ele oferece suporte a FP4, CUDA e, ao expandir com ConnectX-7, adiciona mais 128GB de memória, mas como o preço da máquina passa de mais que o dobro em relação ao Strix Halo, fica difícil até considerar.

Mesmo que o ecossistema do AMD ROCm ainda seja mais fraco que o do CUDA, os programas que eu fiz até agora têm rodado bem, então estou pendendo para esse lado (dá para comprar um SoC de 128GB e 2TB por cerca de 3 milhões de won). Queria saber como vocês montaram seus sistemas levando em conta orçamento e consumo de energia.

Eu estou pensando em ir de AMD Strix Halo, com o OS baseado em Fedora chamado Bazzite. Os drivers gráficos já vêm todos instalados por padrão e, instalando Distrobox e mise, parece que consigo rodar tanto os programas que fiz quanto os modelos de que preciso.

9 comentários

popopo 2025-11-18

A máquina Strix Halo que comprei na promoção do Dia dos Solteiros chegou, instalei o Bazzite e testei a geração de algumas imagens com o distrobox. O desempenho veio como esperado (com LLM não foi tão alto assim). Dá para pensar nela simplesmente como um mini PC de alto desempenho.

Dizem que dá para alocar mais de 96 GB de memória unificada como vRAM, mas não sei se é porque isso muda dinamicamente e não dá para confirmar; até agora, ainda não vi mais de 96 GB alocados.

Usei o site https://strixhalo.wiki/ como referência para a configuração. Também há uma tabela comparativa do guia de compra (Strix Halo - Mac - DGS Spark - 6000), então vale a pena consultar.

Propaganda do Bazzite: o sistema gerencia o OS como uma imagem imutável, e os demais programas são gerenciados como baterias incluídas (flatpak, brew etc.). Com um comando de atualização, ele atualiza tudo, do firmware a todos os pacotes. Se parecer que o OS ficou bagunçado, basta limpar apenas o diretório do usuário (não dá para mexer no OS pelos métodos comuns). Como os drivers da AMD já vêm todos instalados, dá para usar o ROCm imediatamente.

O Fedora CoreOS surgiu como um OS para servir de plataforma de lançamento de contêineres... e o Bazzite, que adiciona vários ajustes de usuário em cima disso, é muito prático tanto para uso geral quanto para desenvolvimento, além de ter uma usabilidade excelente. Ele já vem com contêineres (distrobox), wine e tailscale instalados por padrão. Se você adicionar o mise, praticamente dá para gerenciar tudo o que quiser.

Minha ideia era configurar tudo desde o início e montar um guia, mas como copiei inteiro o diretório da conta de usuário do Bazzite que eu já usava, todas as configurações vieram junto, então acabei não conseguindo fazer um guia de configuração...

minsuchae 2025-11-11

Na minha opinião pessoal, no caso do Mac e do Nvidia DGX Spark a discussão acaba se dividindo bastante entre memória unificada e, nos demais casos, RAM e VRAM.
Em alguns produtos, a alocação de VRAM da GPU integrada também funciona usando a RAM do sistema.
Para quem não é especialista, eu recomendaria Mac ou Nvidia DGX Spark; se a pessoa consegue se virar um pouco com tentativas e erros, usar AMD pode ser uma opção melhor.
Cada um tem seus prós e contras.

No caso do Mac, Nvidia DGX Spark e similares, há a desvantagem de que não dá para fazer upgrade de RAM por conta própria, então é preciso comprar já com a configuração definida.
No caso da AMD, há a vantagem de poder fazer upgrade de RAM manualmente, mas existe um limite na alocação de VRAM.

Ou seja, se a ideia é usar mais de 128 GB como VRAM, o Mac Studio é a opção mais vantajosa.
Exige menos gambiarra, mas o Mac Studio tem a desvantagem de ser bom para inferência e desfavorável para treinamento. (Em treinamento, é mais lento que AMD)

No caso do Nvidia DGX Spark, há a desvantagem de que, para montar uma configuração com mais de 128 GB de memória, é preciso comprar até um cabo separado da Nvidia. Porém, em treinamento de IA, como CUDA é usado por padrão, dá bem menos trabalho. Além disso, há rumores de que o desempenho, tirando a VRAM, fica no nível de uma 5070, e também existe a limitação da largura de banda de memória...(se considerar treinamento, é uma escolha razoável)

Alocação de VRAM usando gráficos integrados
Com a alta recente no preço da memória, é uma opção menos atraente, mas ainda assim, considerando as opções de RAM, fica bem mais barato que um Mac. No entanto, como o suporte do AMD ROCm deixa a desejar, a pessoa precisa penar por conta própria, então não é recomendado para não especialistas (além de que aumentar ainda mais a VRAM é praticamente impossível...)

Acho que dá para resumir assim.
Se considerar só custo-benefício, a AMD é boa mesmo... mas, para usar com tranquilidade, o Mac Studio também não é uma opção ruim. Se pensar apenas em inferência, ele acaba entrando tranquilamente na faixa de bom custo-benefício...

minsuchae 2025-11-11

No caso da AMD, existe a vantagem de poder fazer upgrade de RAM diretamente, mas há limitações na alocação de VRAM
-> Esta parte ficou errada porque escrevi sem organizar direito. Quando RAM do sistema e VRAM são separadas, em alguns casos parte pode ser atualizada, e no caso de laptops muitas vezes também não dá para fazer upgrade.

dhy0613 2025-11-11

Parei de esperar a 5070Ti Super e acabei sendo seduzido pela Radeon, então montei assim e estou usando dessa forma.

9800x3D
7900 XTX usada
96GB de RAM

Dividi as partições, instalei o Ubuntu 24.10 e o ROCm 7.1, e no lado do ComfyUI, onde uso algo como inferência de LLM e PyTorch, está rodando bem sem grandes problemas.

O fato de o SageAttention não funcionar é um pequeno ponto negativo, mas considerando o preço, estou relevando isso.

clastneo 2025-11-10

Eu estava pensando em comprar um Mac Studio grande, mas não fazia ideia de que as opções relacionadas a Home LLM tinham aumentado tanto assim.
Por acaso você poderia me dizer como costuma montar a configuração do lado do Strix?

popopo 2025-11-10

Ainda não comprei o Strix halo, mas, de forma semelhante, usei 16 GB de vRAM em um computador gamer com GPU AMD para calcular aproximadamente 600 milhões de casos possíveis.

Montei tudo uma vez e fui pesquisando conforme dava, então não me lembro com precisão.

Como estou usando o Bazzite, os drivers gráficos já estavam instalados, então não houve nada de especial nisso; instalei o ROCm e os módulos relacionados no Rocky Linux dentro do distrobox e fiz vários tipos de processamento usando GPU.

Como a largura de banda de memória rápida é alta, talvez também valha considerar um Mac Studio, não? Com as opções de 128 GB e 2 TB, ele sai por 4.000 dólares. A parte de ser arquitetura Mac não deve fazer muita diferença em relação a ir de AMD.

clastneo 2025-11-11

Vou usar a resposta como referência.
Obrigado pela resposta atenciosa!

popopo 2025-11-09

Com base em https://www.youtube.com/watch?v=Pww8rIzr1pg, pedi ao Gemini que fizesse uma comparação, e este foi o resultado.

📊 Comparação das opções para rodar LLM com 128GB (novembro de 2025, com benchmark refletido)

Refletindo o conteúdo do vídeo: com base nos benchmarks do Hardware Unboxed, o Strix Halo leva vantagem sobre o M3 Max (cerca de 30~35% melhor), e o sistema GB10 "Spark" mostra desempenho dedicado de NPU/GPU muito superior ao desses APUs/chipsets integrados. (Com base em inferência de Llama 3 70B Q4 em T/s)

Opção de configuração (128GB) T/s (estimado) Consumo do sistema (estimado) T/W (eficiência energética) Custo do sistema (estimado) Custo/T (custo-benefício)
NVIDIA "Spark" (GB10) 120 T/s 400 W 0.30 ~5,2 milhões de won 43,3 mil won/T
4 x RTX 5080 32GB (novo) 240 T/s 1500 W 0.16 ~12 milhões de won 50 mil won/T
6 x RTX 3090 (usado) 90 T/s 2300 W 0.04 ~7 milhões de won 78 mil won/T
AMD Strix Halo (128GB) 30 T/s 180 W 0.17 ~2,6 milhões de won 86,7 mil won/T
Apple M3 Max (128GB) 22 T/s 100 W 0.22 ~6 milhões de won 273 mil won/T

💡 Análise e conclusão (correção de erro)

Corrigindo meu erro grave e refletindo corretamente o conteúdo do vídeo, segue a nova análise.

Campeão em "relação custo-desempenho (Cost/T)": NVIDIA "Spark" (GB10)  

    Cost/T (custo-benefício): 43,3 mil won/T  

    Como mostrado no vídeo do Hardware Unboxed, o sistema 'Spark' de $3999 entrega desempenho de inferência de LLM (T/s) muito superior ao sistema 'Strix Halo' de $2000.  

    Por isso, o custo de montagem do sistema por token (Cost/T) é o mais baixo entre todas as opções, tornando-o o campeão de 'custo-benefício'.  

    O T/W (eficiência energética) também é 0.30, sendo muito mais eficiente do que configurações com múltiplas GPUs.  

Campeão em "orçamento absoluto": AMD Strix Halo (128GB)  

    Cost/T (custo-benefício): 86,7 mil won/T  

    O valor deste sistema não está na velocidade absoluta (30 T/s), mas no fato de permitir entrar em um ambiente com 128GB de VRAM com o impressionante 'menor custo' de **cerca de 2,6 milhões de won ($2000)**.  

    Como o vídeo confirma que ele supera o M3 Max, é uma excelente opção de 'entrada' para desenvolvedores individuais.  

Campeão em "velocidade absoluta": 4 x RTX 5080 32GB  

    T/s (velocidade): 240 T/s  

    Sistemas integrados como 'Spark' ou 'Strix Halo' são fortes em inferência, mas podem ter limitações para fazer 'fine-tuning' (ajuste fino) direto no modelo.  

    Se você quer a inferência mais rápida possível e, ao mesmo tempo, a flexibilidade de treinar/modificar o modelo por conta própria, a configuração com múltiplas GPUs individuais (4 x 5080) continua sendo a opção mais poderosa.

popopo 2025-11-10

Vídeo mostrando que, dentro de um orçamento de US$ 4 mil, um setup com quatro 3090 tem desempenho muito superior ao DGX Spark

https://www.youtube.com/watch?v=md6a4ENM9pg

Alegação de que o Strix Halo é uma compra péssima como máquina para rodar LLM localmente

https://reddit.com/r/LocalLLaMA/…

Parece que o principal argumento é que o consumo de energia dificilmente pode ser um critério importante e que, por causa da largura de banda, mesmo carregando modelos grandes na memória, não dá para aproveitá-los de forma útil...

Compartilhando a experiência de montar uma máquina local para LLM em casa

Leituras relacionadas

9 comentários