- Um experimento usando o novo recurso de RDMA (Remote Direct Memory Access) sobre Thunderbolt 5, adicionado no macOS 26.2, fez vários Mac Studio operarem como um único grande pool de memória
- Com a ferramenta open source de clusterização Exo 1.0, foi possível montar 1,5 TB de memória unificada e melhorar a velocidade de execução de grandes modelos de IA
- O Mac Studio com M3 Ultra já mostra alto desempenho computacional e eficiência mesmo em um único nó, e com RDMA a latência de acesso à memória caiu de 300 μs para menos de 50 μs
- Também há limitações operacionais no cluster, como a complexidade dos cabos Thunderbolt 5, a ausência de switches e restrições de gerenciamento no macOS
- A combinação de RDMA com Exo mostra o potencial de expansão de ambientes de IA e HPC baseados em Mac, mas ainda precisa evoluir em estabilidade e escalabilidade
Visão geral do experimento com RDMA over Thunderbolt 5
- Foi testado o recurso de RDMA over Thunderbolt do macOS 26.2 usando um cluster de Mac Studio fornecido pela Apple
- O RDMA faz vários Macs funcionarem como se fossem uma única grande RAM, acelerando o processamento de modelos de IA em larga escala
- Nos testes foi usada a ferramenta open source de clusterização de IA Exo 1.0
- O conjunto de 4 Mac Studio com 1,5 TB de memória unificada no total custa cerca de 40 mil dólares
Histórico da Apple em HPC e o papel do M3 Ultra
- A Apple praticamente não tinha iniciativas relevantes em HPC desde a época do Xserve e Xgrid
- O Mac Studio com M3 Ultra entrega desempenho adequado para rodar modelos locais de IA e, com suporte a RDMA, reduz a latência em cluster de 300 μs para menos de 50 μs
- Ele opera de forma silenciosa com menos de 250 W de consumo, sendo adequado também para computação científica de pequeno porte e trabalhos criativos
Configuração de hardware e rede
- As 2 máquinas da parte inferior têm 512 GB de RAM / CPU de 32 núcleos, enquanto as 2 da parte superior têm 256 GB de RAM
- O Thunderbolt 5 fornece largura de banda efetiva de 50 a 60 Gbps, mas, pela ausência de switches Thunderbolt, cada Mac precisa ser conectado diretamente aos outros
- A estabilidade de rede fica abaixo da Nvidia DGX Spark, que usa portas QSFP
- Existe o ThunderLok-A para fixação dos cabos Thunderbolt, mas ele não foi usado porque exigiria modificar o chassi do Mac Studio
Benchmark de desempenho do Mac Studio com M3 Ultra
- No Geekbench, ele supera o Dell Pro Max (GB10) e o AMD AI Max+ 395 tanto em single-core quanto em multi-core
- No benchmark FP64 HPL, ultrapassou 1 Tflop, cerca de 2 vezes o desempenho do Nvidia GB10
- Também teve ótimo desempenho em inferência de grandes modelos de IA, com alta eficiência para o mesmo nível de consumo de energia
- Um único M3 Ultra superou um cluster de 2 nós do Dell Pro Max em desempenho e eficiência
Gerenciamento do cluster e limitações do macOS
- No macOS, não é possível fazer upgrade do sistema via SSH, exigindo operação pela GUI
- O gerenciamento remoto foi feito com Screen Sharing
- Em comparação com Linux, é mais difícil automatizar a administração do cluster, e há incômodos pela falta de ferramentas MDM
Testes com HPL e Llama.cpp
- No HPL, um único nó alcançou 1,3 Tflops, e a configuração com 4 nós chegou a 3,7 Tflops, cerca de 3 vezes mais
- Com conexão TCP sobre Thunderbolt, ocorreram crashes do sistema, mostrando instabilidade sem RDMA
- Nos testes com Llama.cpp, o Thunderbolt 5 apresentou latência menor que a Ethernet de 2,5 Gbps
Ativação do RDMA e testes com Exo 1.0
- Procedimento para ativar o RDMA: entrar no modo de recuperação → executar o comando
rdma_ctl enable → reiniciar
- O Exo 1.0 é a única ferramenta com suporte a RDMA e permite distribuir em vários Macs modelos acima de 600 GB, como o Kimi K2 Thinking
- O Llama.cpp distribui camadas do modelo via RPC, mas de forma ineficiente
- O Exo melhora o desempenho conforme o número de nós aumenta, chegando a 32 tokens por segundo no modelo Qwen3 235B
- Os modelos DeepSeek V3.1 e Kimi K2 Thinking (1 trilhão de parâmetros) também rodaram com sucesso
Problemas de estabilidade e questões de open source
- Os testes foram feitos com software pre-release, o que trouxe instabilidade
- Quando o RDMA funciona, o desempenho é excelente, mas, em caso de falha, é preciso reiniciar todo o cluster
- A equipe de desenvolvimento do Exo ficou um tempo inativa e depois voltou, e o projeto está disponível sob a licença Apache 2.0
- Também foram citadas preocupações sobre o processo de desenvolvimento fechado decorrente da colaboração com a Apple
Próximos desafios e perguntas em aberto
- A possibilidade de lançamento do M5 Ultra e de melhorias no desempenho de machine learning
- A necessidade de melhorar a clusterização com o retorno da expansibilidade PCIe no Mac Pro
- A possibilidade de compartilhamento de arquivos em alta velocidade com suporte a SMB Direct
- A expectativa de ampliação do suporte a RDMA em outros softwares, como o Llama.cpp
Conclusão
- A combinação de RDMA com Exo amplia bastante o potencial do Mac Studio para IA e HPC
- Porém, as limitações estruturais do Thunderbolt 5 e as restrições de gerenciamento do macOS ainda são gargalos
- Melhorias na escalabilidade de rede, como a adoção de portas QSFP, ainda são necessárias
- Mesmo quando a febre da IA passar, o Mac Studio deve manter seu valor como uma workstation silenciosa e poderosa
2 comentários
Lembra o Impala.
Comentários no Hacker News
Organizou o que espera do M5 Max/Ultra
Queria que suportasse link QSFP (200Gb/s ou mais) em vez de Thunderbolt, em nível de DGX. A arquitetura de RDMA é legal, mas sem essa faixa de velocidade a relação custo-benefício cai
Quer reduzir o tempo de prefill de prompts com um acelerador neural. Mesmo que não chegue ao nível de uma RTX 6000, algo como uma 3090/4090 já seria suficiente
Espera 1TB de memória unificada na configuração topo de linha do Mac Studio. Acha mais eficiente aumentar a memória do que usar vários equipamentos
Também gostaria que a largura de banda subisse em +1TB/s. Nas últimas três gerações ela ficou parada em 800GB/s
Também seria bom ter recurso de overclock. Como o Mac Studio não é um notebook, acha aceitável consumir mais de 600W. Hoje ele está limitado a cerca de 250W
Além disso, essa configuração de RDMA só consegue conectar no máximo 4 Macs. Isso porque todos os Macs precisam estar ligados diretamente entre si. Por isso, acha que a Apple deveria investir em links de alta velocidade como QSFP
E também fica a dúvida se todos os Macs realmente precisam estar em uma topologia mesh completa. Dá a impressão de que o Thunderbolt funciona sobre RDMA como uma interface de rede
Fica a dúvida de por que a Apple lança algo como RDMA, que é voltado para clusters de servidores, mas ignora melhorias básicas de qualidade como gerenciamento remoto ou rackmount
Acha que eles usam internamente produtos de servidor com chips da série M, e que esse recurso pode ser um subproduto disso
O trabalho do Jeff é realmente muito legal. A notícia de RDMA baseado em Thunderbolt também foi interessante
Acima de tudo, agradeço pela energia positiva do Jeff e por suas contribuições constantes
O Linux suporta RDMA, mas isso ainda não é possível em Thunderbolt. Para implementar isso, provavelmente seria necessário bastante trabalho
Seria ótimo se desse para juntar 2 ou 3 caixas Strix Halo baratas (128GB DDR5-8000, 2 USB4) para rodar modelos grandes
No momento, o Thunderbolt não tem switches, então o tamanho do cluster fica limitado
Em vez disso, fica a curiosidade se daria para usar RoCE (RDMA over Converged Ethernet). Ouvi dizer que RDMA é de 7 a 10 vezes mais rápido que TCP
Também existem adaptadores Thunderbolt Ethernet de 10G a 80G, mas a latência pode ser o problema
Se houvesse slot PCIe, seria só colocar uma placa Infiniband, mas no fim a questão é o driver
Surpreende a Apple incluir o driver MLX5 até no iPadOS. Veja este blog relacionado
ibv_devicesQueria ver dados que medissem separadamente a velocidade de entrada (prefill) e a de saída (decode)
Havia um texto da Exo dizendo que essas duas velocidades são bem diferentes no hardware da Apple
Estou pensando em sugerir à equipe da Exo que adicione um recurso de benchmark
Foi interessante ver que o Thunderbolt 5 não foi tão esmagador quanto se imaginava
Em comparação com Ethernet de 2,5Gbps, o TB5 foi só cerca de 10% mais rápido. O M3 Studio suporta Ethernet de 10Gbps, mas isso não foi testado
O TB5 tem o limite de 4 máquinas porque todos os CPUs precisam estar conectados diretamente entre si. Já com um switch Ethernet, dá para ligar mais nós
Cada nó do cluster tem 512GB de RAM. O modelo DeepSeek V3.1 exige 700GB de RAM
É estranho que ao passar de um nó para dois a velocidade de inferência só tenha melhorado 32%. Com 4 nós, o ganho continua abaixo de 50%
Parece haver algum gargalo
Essa estrutura em que todos os nós se conectam entre si lembra o NUMALink da SGI.
Os supercomputadores da SGI conectavam cada nó a todos os demais com dois links. Havia muitos cabos, mas não era preciso se preocupar com framing ou controle de congestionamento
É a mesma lógica usada hoje em sistemas de trading de alta frequência, que posicionam processos levando em conta os núcleos de CPU e a posição dos DIMMs
Gostei de alguns detalhes curiosos mencionados no texto
O desaparecimento misterioso da Exo, o fato de Jeff querer SMB Direct no Mac, a velocidade de inferência do M3 Ultra e até o desktop Framework AI de US$ 2100
Saí com a sensação de ter encontrado um novo rabbit hole