Como montar 1,5 TB de VRAM no Mac Studio — RDMA sobre Thunderbolt 5

(jeffgeerling.com)

6 pontos por GN⁺ 2025-12-19 | 2 comentários | Compartilhar no WhatsApp

Um experimento usando o novo recurso de RDMA (Remote Direct Memory Access) sobre Thunderbolt 5, adicionado no macOS 26.2, fez vários Mac Studio operarem como um único grande pool de memória
Com a ferramenta open source de clusterização Exo 1.0, foi possível montar 1,5 TB de memória unificada e melhorar a velocidade de execução de grandes modelos de IA
O Mac Studio com M3 Ultra já mostra alto desempenho computacional e eficiência mesmo em um único nó, e com RDMA a latência de acesso à memória caiu de 300 μs para menos de 50 μs
Também há limitações operacionais no cluster, como a complexidade dos cabos Thunderbolt 5, a ausência de switches e restrições de gerenciamento no macOS
A combinação de RDMA com Exo mostra o potencial de expansão de ambientes de IA e HPC baseados em Mac, mas ainda precisa evoluir em estabilidade e escalabilidade

Visão geral do experimento com RDMA over Thunderbolt 5

Foi testado o recurso de RDMA over Thunderbolt do macOS 26.2 usando um cluster de Mac Studio fornecido pela Apple
- O RDMA faz vários Macs funcionarem como se fossem uma única grande RAM, acelerando o processamento de modelos de IA em larga escala
Nos testes foi usada a ferramenta open source de clusterização de IA Exo 1.0
O conjunto de 4 Mac Studio com 1,5 TB de memória unificada no total custa cerca de 40 mil dólares

Histórico da Apple em HPC e o papel do M3 Ultra

A Apple praticamente não tinha iniciativas relevantes em HPC desde a época do Xserve e Xgrid
O Mac Studio com M3 Ultra entrega desempenho adequado para rodar modelos locais de IA e, com suporte a RDMA, reduz a latência em cluster de 300 μs para menos de 50 μs
Ele opera de forma silenciosa com menos de 250 W de consumo, sendo adequado também para computação científica de pequeno porte e trabalhos criativos

Configuração de hardware e rede

As 2 máquinas da parte inferior têm 512 GB de RAM / CPU de 32 núcleos, enquanto as 2 da parte superior têm 256 GB de RAM
O Thunderbolt 5 fornece largura de banda efetiva de 50 a 60 Gbps, mas, pela ausência de switches Thunderbolt, cada Mac precisa ser conectado diretamente aos outros
A estabilidade de rede fica abaixo da Nvidia DGX Spark, que usa portas QSFP
Existe o ThunderLok-A para fixação dos cabos Thunderbolt, mas ele não foi usado porque exigiria modificar o chassi do Mac Studio

Benchmark de desempenho do Mac Studio com M3 Ultra

No Geekbench, ele supera o Dell Pro Max (GB10) e o AMD AI Max+ 395 tanto em single-core quanto em multi-core
No benchmark FP64 HPL, ultrapassou 1 Tflop, cerca de 2 vezes o desempenho do Nvidia GB10
Também teve ótimo desempenho em inferência de grandes modelos de IA, com alta eficiência para o mesmo nível de consumo de energia
Um único M3 Ultra superou um cluster de 2 nós do Dell Pro Max em desempenho e eficiência

Gerenciamento do cluster e limitações do macOS

No macOS, não é possível fazer upgrade do sistema via SSH, exigindo operação pela GUI
O gerenciamento remoto foi feito com Screen Sharing
Em comparação com Linux, é mais difícil automatizar a administração do cluster, e há incômodos pela falta de ferramentas MDM

Testes com HPL e Llama.cpp

No HPL, um único nó alcançou 1,3 Tflops, e a configuração com 4 nós chegou a 3,7 Tflops, cerca de 3 vezes mais
Com conexão TCP sobre Thunderbolt, ocorreram crashes do sistema, mostrando instabilidade sem RDMA
Nos testes com Llama.cpp, o Thunderbolt 5 apresentou latência menor que a Ethernet de 2,5 Gbps

Ativação do RDMA e testes com Exo 1.0

Procedimento para ativar o RDMA: entrar no modo de recuperação → executar o comando rdma_ctl enable → reiniciar
O Exo 1.0 é a única ferramenta com suporte a RDMA e permite distribuir em vários Macs modelos acima de 600 GB, como o Kimi K2 Thinking
O Llama.cpp distribui camadas do modelo via RPC, mas de forma ineficiente
O Exo melhora o desempenho conforme o número de nós aumenta, chegando a 32 tokens por segundo no modelo Qwen3 235B
Os modelos DeepSeek V3.1 e Kimi K2 Thinking (1 trilhão de parâmetros) também rodaram com sucesso

Problemas de estabilidade e questões de open source

Os testes foram feitos com software pre-release, o que trouxe instabilidade
Quando o RDMA funciona, o desempenho é excelente, mas, em caso de falha, é preciso reiniciar todo o cluster
A equipe de desenvolvimento do Exo ficou um tempo inativa e depois voltou, e o projeto está disponível sob a licença Apache 2.0
Também foram citadas preocupações sobre o processo de desenvolvimento fechado decorrente da colaboração com a Apple

Próximos desafios e perguntas em aberto

A possibilidade de lançamento do M5 Ultra e de melhorias no desempenho de machine learning
A necessidade de melhorar a clusterização com o retorno da expansibilidade PCIe no Mac Pro
A possibilidade de compartilhamento de arquivos em alta velocidade com suporte a SMB Direct
A expectativa de ampliação do suporte a RDMA em outros softwares, como o Llama.cpp

Conclusão

A combinação de RDMA com Exo amplia bastante o potencial do Mac Studio para IA e HPC
Porém, as limitações estruturais do Thunderbolt 5 e as restrições de gerenciamento do macOS ainda são gargalos
Melhorias na escalabilidade de rede, como a adoção de portas QSFP, ainda são necessárias
Mesmo quando a febre da IA passar, o Mac Studio deve manter seu valor como uma workstation silenciosa e poderosa

2 comentários

kaydash 2025-12-21

Lembra o Impala.

GN⁺ 2025-12-19

Comentários no Hacker News

Organizou o que espera do M5 Max/Ultra
Queria que suportasse link QSFP (200Gb/s ou mais) em vez de Thunderbolt, em nível de DGX. A arquitetura de RDMA é legal, mas sem essa faixa de velocidade a relação custo-benefício cai
Quer reduzir o tempo de prefill de prompts com um acelerador neural. Mesmo que não chegue ao nível de uma RTX 6000, algo como uma 3090/4090 já seria suficiente
Espera 1TB de memória unificada na configuração topo de linha do Mac Studio. Acha mais eficiente aumentar a memória do que usar vários equipamentos
Também gostaria que a largura de banda subisse em +1TB/s. Nas últimas três gerações ela ficou parada em 800GB/s
Também seria bom ter recurso de overclock. Como o Mac Studio não é um notebook, acha aceitável consumir mais de 600W. Hoje ele está limitado a cerca de 250W
Além disso, essa configuração de RDMA só consegue conectar no máximo 4 Macs. Isso porque todos os Macs precisam estar ligados diretamente entre si. Por isso, acha que a Apple deveria investir em links de alta velocidade como QSFP
- 1TB de memória? Tem que sobrar um pouco de RAM para nós, usuários comuns, não? É tipo: “IA, por favor, faça a humanidade feliz!”
- O M4 já alcançou a velocidade necessária por canal, e o M5 vai além disso. Se sair uma versão Ultra, 1TB/s de largura de banda certamente será possível. O Max é metade de um Ultra, então provavelmente não chega lá
- O Mac Studio não tem projeto térmico para aguentar continuamente algo na faixa de 650W de calor. Esse nível só faria sentido em um design de Mac Pro
- As portas USB-C frontais do Mac Studio com M3 Ultra também são Thunderbolt 5, então há 6 portas no total. Pelas especificações oficiais, fica a dúvida de por que esse limite de 4 máquinas seria necessário
- O Apple Neural Engine já suporta operações INT8 e FP16. O problema é que os frameworks de IA ainda não conseguem aproveitar isso direito
  E também fica a dúvida se todos os Macs realmente precisam estar em uma topologia mesh completa. Dá a impressão de que o Thunderbolt funciona sobre RDMA como uma interface de rede
Fica a dúvida de por que a Apple lança algo como RDMA, que é voltado para clusters de servidores, mas ignora melhorias básicas de qualidade como gerenciamento remoto ou rackmount
Acha que eles usam internamente produtos de servidor com chips da série M, e que esse recurso pode ser um subproduto disso
- Talvez a Apple esteja mesmo preparando um produto de classe servidor, e tenha liberado o RDMA antes para que softwares de terceiros possam se adaptar com antecedência
- O Mac Studio ocupa uma posição própria para inferência de LLM. O RDMA não seria para servidores em geral, mas para agrupar 4 Studios em um cluster de inferência de LLM
- Já ouviu dizer que a Apple empilhou M2 Mac Pro em racks para o recurso de Private Compute
- Fico curioso se a Apple opera seu próprio datacenter. Achava que terceirizava a maior parte disso para a GCP
- Sempre tive essa curiosidade. Por que o tooling para desenvolvimento é tão fraco, e que tipo de ambiente a Apple usa internamente. Ficar ligando Mac Mini com cabo Thunderbolt parece meio frustrante
O trabalho do Jeff é realmente muito legal. A notícia de RDMA baseado em Thunderbolt também foi interessante
Acima de tudo, agradeço pela energia positiva do Jeff e por suas contribuições constantes
O Linux suporta RDMA, mas isso ainda não é possível em Thunderbolt. Para implementar isso, provavelmente seria necessário bastante trabalho
Seria ótimo se desse para juntar 2 ou 3 caixas Strix Halo baratas (128GB DDR5-8000, 2 USB4) para rodar modelos grandes
No momento, o Thunderbolt não tem switches, então o tamanho do cluster fica limitado
Em vez disso, fica a curiosidade se daria para usar RoCE (RDMA over Converged Ethernet). Ouvi dizer que RDMA é de 7 a 10 vezes mais rápido que TCP
Também existem adaptadores Thunderbolt Ethernet de 10G a 80G, mas a latência pode ser o problema
Se houvesse slot PCIe, seria só colocar uma placa Infiniband, mas no fim a questão é o driver
- Também dá para converter Thunderbolt em PCIe e usar uma NIC comum. O Atto Thunderlink, na prática, é só um gabinete envolvendo uma NIC Broadcom
  Surpreende a Apple incluir o driver MLX5 até no iPadOS. Veja este blog relacionado
- O macOS inclui drivers para placas Mellanox ConnectX, mas não se sabe se elas realmente aparecem no ibv_devices
Queria ver dados que medissem separadamente a velocidade de entrada (prefill) e a de saída (decode)
Havia um texto da Exo dizendo que essas duas velocidades são bem diferentes no hardware da Apple
- Há alguns dados relacionados nesta issue do GitHub.
  Estou pensando em sugerir à equipe da Exo que adicione um recurso de benchmark
Foi interessante ver que o Thunderbolt 5 não foi tão esmagador quanto se imaginava
Em comparação com Ethernet de 2,5Gbps, o TB5 foi só cerca de 10% mais rápido. O M3 Studio suporta Ethernet de 10Gbps, mas isso não foi testado
O TB5 tem o limite de 4 máquinas porque todos os CPUs precisam estar conectados diretamente entre si. Já com um switch Ethernet, dá para ligar mais nós
- Este vídeo testa com Ethernet de 10Gbps
- Pela experiência anterior com llama RPC, Ethernet de 10G quase não traz ganho de velocidade. Latência é mais importante, mas até isso tem limite
- O llama ainda não estava muito otimizado, então sua escalabilidade era baixa. O RDMA tem menos overhead que Ethernet
Cada nó do cluster tem 512GB de RAM. O modelo DeepSeek V3.1 exige 700GB de RAM
É estranho que ao passar de um nó para dois a velocidade de inferência só tenha melhorado 32%. Com 4 nós, o ganho continua abaixo de 50%
Parece haver algum gargalo
- A largura de banda da rede é de 80Gbps, então esse é o gargalo. Infiniband é 10 vezes mais rápido que isso
- Os pesos (weights) do modelo são somente leitura, então dá para mapeá-los em memória a partir de um SSD. A limitação real é a memória de activation. Uma arquitetura MoE pode ajudar
- O RDMA por TB5 é muito mais lento que o acesso direto à memória do sistema
Essa estrutura em que todos os nós se conectam entre si lembra o NUMALink da SGI.
Os supercomputadores da SGI conectavam cada nó a todos os demais com dois links. Havia muitos cabos, mas não era preciso se preocupar com framing ou controle de congestionamento
- O hardware da SGI implementava ccNUMA (cache-coherent NUMA). O sistema operacional IRIX movia tarefas e memória para mais perto fisicamente, reduzindo a latência
  É a mesma lógica usada hoje em sistemas de trading de alta frequência, que posicionam processos levando em conta os núcleos de CPU e a posição dos DIMMs
- O rack NVL72 também usa uma estrutura parecida, conectando dezenas de links entre GPUs
Gostei de alguns detalhes curiosos mencionados no texto
O desaparecimento misterioso da Exo, o fato de Jeff querer SMB Direct no Mac, a velocidade de inferência do M3 Ultra e até o desktop Framework AI de US$ 2100
Saí com a sensação de ter encontrado um novo rabbit hole

Como montar 1,5 TB de VRAM no Mac Studio — RDMA sobre Thunderbolt 5

Visão geral do experimento com RDMA over Thunderbolt 5

Histórico da Apple em HPC e o papel do M3 Ultra

Configuração de hardware e rede

Benchmark de desempenho do Mac Studio com M3 Ultra

Gerenciamento do cluster e limitações do macOS

Testes com HPL e Llama.cpp

Ativação do RDMA e testes com Exo 1.0

Problemas de estabilidade e questões de open source

Próximos desafios e perguntas em aberto

Conclusão

Leituras relacionadas

2 comentários

Comentários no Hacker News