6 pontos por GN⁺ 2025-12-19 | 2 comentários | Compartilhar no WhatsApp
  • Um experimento usando o novo recurso de RDMA (Remote Direct Memory Access) sobre Thunderbolt 5, adicionado no macOS 26.2, fez vários Mac Studio operarem como um único grande pool de memória
  • Com a ferramenta open source de clusterização Exo 1.0, foi possível montar 1,5 TB de memória unificada e melhorar a velocidade de execução de grandes modelos de IA
  • O Mac Studio com M3 Ultra já mostra alto desempenho computacional e eficiência mesmo em um único nó, e com RDMA a latência de acesso à memória caiu de 300 μs para menos de 50 μs
  • Também há limitações operacionais no cluster, como a complexidade dos cabos Thunderbolt 5, a ausência de switches e restrições de gerenciamento no macOS
  • A combinação de RDMA com Exo mostra o potencial de expansão de ambientes de IA e HPC baseados em Mac, mas ainda precisa evoluir em estabilidade e escalabilidade

Visão geral do experimento com RDMA over Thunderbolt 5

  • Foi testado o recurso de RDMA over Thunderbolt do macOS 26.2 usando um cluster de Mac Studio fornecido pela Apple
    • O RDMA faz vários Macs funcionarem como se fossem uma única grande RAM, acelerando o processamento de modelos de IA em larga escala
  • Nos testes foi usada a ferramenta open source de clusterização de IA Exo 1.0
  • O conjunto de 4 Mac Studio com 1,5 TB de memória unificada no total custa cerca de 40 mil dólares

Histórico da Apple em HPC e o papel do M3 Ultra

  • A Apple praticamente não tinha iniciativas relevantes em HPC desde a época do Xserve e Xgrid
  • O Mac Studio com M3 Ultra entrega desempenho adequado para rodar modelos locais de IA e, com suporte a RDMA, reduz a latência em cluster de 300 μs para menos de 50 μs
  • Ele opera de forma silenciosa com menos de 250 W de consumo, sendo adequado também para computação científica de pequeno porte e trabalhos criativos

Configuração de hardware e rede

  • As 2 máquinas da parte inferior têm 512 GB de RAM / CPU de 32 núcleos, enquanto as 2 da parte superior têm 256 GB de RAM
  • O Thunderbolt 5 fornece largura de banda efetiva de 50 a 60 Gbps, mas, pela ausência de switches Thunderbolt, cada Mac precisa ser conectado diretamente aos outros
  • A estabilidade de rede fica abaixo da Nvidia DGX Spark, que usa portas QSFP
  • Existe o ThunderLok-A para fixação dos cabos Thunderbolt, mas ele não foi usado porque exigiria modificar o chassi do Mac Studio

Benchmark de desempenho do Mac Studio com M3 Ultra

  • No Geekbench, ele supera o Dell Pro Max (GB10) e o AMD AI Max+ 395 tanto em single-core quanto em multi-core
  • No benchmark FP64 HPL, ultrapassou 1 Tflop, cerca de 2 vezes o desempenho do Nvidia GB10
  • Também teve ótimo desempenho em inferência de grandes modelos de IA, com alta eficiência para o mesmo nível de consumo de energia
  • Um único M3 Ultra superou um cluster de 2 nós do Dell Pro Max em desempenho e eficiência

Gerenciamento do cluster e limitações do macOS

  • No macOS, não é possível fazer upgrade do sistema via SSH, exigindo operação pela GUI
  • O gerenciamento remoto foi feito com Screen Sharing
  • Em comparação com Linux, é mais difícil automatizar a administração do cluster, e há incômodos pela falta de ferramentas MDM

Testes com HPL e Llama.cpp

  • No HPL, um único nó alcançou 1,3 Tflops, e a configuração com 4 nós chegou a 3,7 Tflops, cerca de 3 vezes mais
  • Com conexão TCP sobre Thunderbolt, ocorreram crashes do sistema, mostrando instabilidade sem RDMA
  • Nos testes com Llama.cpp, o Thunderbolt 5 apresentou latência menor que a Ethernet de 2,5 Gbps

Ativação do RDMA e testes com Exo 1.0

  • Procedimento para ativar o RDMA: entrar no modo de recuperação → executar o comando rdma_ctl enable → reiniciar
  • O Exo 1.0 é a única ferramenta com suporte a RDMA e permite distribuir em vários Macs modelos acima de 600 GB, como o Kimi K2 Thinking
  • O Llama.cpp distribui camadas do modelo via RPC, mas de forma ineficiente
  • O Exo melhora o desempenho conforme o número de nós aumenta, chegando a 32 tokens por segundo no modelo Qwen3 235B
  • Os modelos DeepSeek V3.1 e Kimi K2 Thinking (1 trilhão de parâmetros) também rodaram com sucesso

Problemas de estabilidade e questões de open source

  • Os testes foram feitos com software pre-release, o que trouxe instabilidade
  • Quando o RDMA funciona, o desempenho é excelente, mas, em caso de falha, é preciso reiniciar todo o cluster
  • A equipe de desenvolvimento do Exo ficou um tempo inativa e depois voltou, e o projeto está disponível sob a licença Apache 2.0
  • Também foram citadas preocupações sobre o processo de desenvolvimento fechado decorrente da colaboração com a Apple

Próximos desafios e perguntas em aberto

  • A possibilidade de lançamento do M5 Ultra e de melhorias no desempenho de machine learning
  • A necessidade de melhorar a clusterização com o retorno da expansibilidade PCIe no Mac Pro
  • A possibilidade de compartilhamento de arquivos em alta velocidade com suporte a SMB Direct
  • A expectativa de ampliação do suporte a RDMA em outros softwares, como o Llama.cpp

Conclusão

  • A combinação de RDMA com Exo amplia bastante o potencial do Mac Studio para IA e HPC
  • Porém, as limitações estruturais do Thunderbolt 5 e as restrições de gerenciamento do macOS ainda são gargalos
  • Melhorias na escalabilidade de rede, como a adoção de portas QSFP, ainda são necessárias
  • Mesmo quando a febre da IA passar, o Mac Studio deve manter seu valor como uma workstation silenciosa e poderosa

2 comentários

 
kaydash 2025-12-21

Lembra o Impala.

 
GN⁺ 2025-12-19
Comentários no Hacker News
  • Organizou o que espera do M5 Max/Ultra
    Queria que suportasse link QSFP (200Gb/s ou mais) em vez de Thunderbolt, em nível de DGX. A arquitetura de RDMA é legal, mas sem essa faixa de velocidade a relação custo-benefício cai
    Quer reduzir o tempo de prefill de prompts com um acelerador neural. Mesmo que não chegue ao nível de uma RTX 6000, algo como uma 3090/4090 já seria suficiente
    Espera 1TB de memória unificada na configuração topo de linha do Mac Studio. Acha mais eficiente aumentar a memória do que usar vários equipamentos
    Também gostaria que a largura de banda subisse em +1TB/s. Nas últimas três gerações ela ficou parada em 800GB/s
    Também seria bom ter recurso de overclock. Como o Mac Studio não é um notebook, acha aceitável consumir mais de 600W. Hoje ele está limitado a cerca de 250W
    Além disso, essa configuração de RDMA só consegue conectar no máximo 4 Macs. Isso porque todos os Macs precisam estar ligados diretamente entre si. Por isso, acha que a Apple deveria investir em links de alta velocidade como QSFP

    • 1TB de memória? Tem que sobrar um pouco de RAM para nós, usuários comuns, não? É tipo: “IA, por favor, faça a humanidade feliz!”
    • O M4 já alcançou a velocidade necessária por canal, e o M5 vai além disso. Se sair uma versão Ultra, 1TB/s de largura de banda certamente será possível. O Max é metade de um Ultra, então provavelmente não chega lá
    • O Mac Studio não tem projeto térmico para aguentar continuamente algo na faixa de 650W de calor. Esse nível só faria sentido em um design de Mac Pro
    • As portas USB-C frontais do Mac Studio com M3 Ultra também são Thunderbolt 5, então há 6 portas no total. Pelas especificações oficiais, fica a dúvida de por que esse limite de 4 máquinas seria necessário
    • O Apple Neural Engine já suporta operações INT8 e FP16. O problema é que os frameworks de IA ainda não conseguem aproveitar isso direito
      E também fica a dúvida se todos os Macs realmente precisam estar em uma topologia mesh completa. Dá a impressão de que o Thunderbolt funciona sobre RDMA como uma interface de rede
  • Fica a dúvida de por que a Apple lança algo como RDMA, que é voltado para clusters de servidores, mas ignora melhorias básicas de qualidade como gerenciamento remoto ou rackmount
    Acha que eles usam internamente produtos de servidor com chips da série M, e que esse recurso pode ser um subproduto disso

    • Talvez a Apple esteja mesmo preparando um produto de classe servidor, e tenha liberado o RDMA antes para que softwares de terceiros possam se adaptar com antecedência
    • O Mac Studio ocupa uma posição própria para inferência de LLM. O RDMA não seria para servidores em geral, mas para agrupar 4 Studios em um cluster de inferência de LLM
    • Já ouviu dizer que a Apple empilhou M2 Mac Pro em racks para o recurso de Private Compute
    • Fico curioso se a Apple opera seu próprio datacenter. Achava que terceirizava a maior parte disso para a GCP
    • Sempre tive essa curiosidade. Por que o tooling para desenvolvimento é tão fraco, e que tipo de ambiente a Apple usa internamente. Ficar ligando Mac Mini com cabo Thunderbolt parece meio frustrante
  • O trabalho do Jeff é realmente muito legal. A notícia de RDMA baseado em Thunderbolt também foi interessante
    Acima de tudo, agradeço pela energia positiva do Jeff e por suas contribuições constantes

  • O Linux suporta RDMA, mas isso ainda não é possível em Thunderbolt. Para implementar isso, provavelmente seria necessário bastante trabalho
    Seria ótimo se desse para juntar 2 ou 3 caixas Strix Halo baratas (128GB DDR5-8000, 2 USB4) para rodar modelos grandes

  • No momento, o Thunderbolt não tem switches, então o tamanho do cluster fica limitado
    Em vez disso, fica a curiosidade se daria para usar RoCE (RDMA over Converged Ethernet). Ouvi dizer que RDMA é de 7 a 10 vezes mais rápido que TCP
    Também existem adaptadores Thunderbolt Ethernet de 10G a 80G, mas a latência pode ser o problema
    Se houvesse slot PCIe, seria só colocar uma placa Infiniband, mas no fim a questão é o driver

    • Também dá para converter Thunderbolt em PCIe e usar uma NIC comum. O Atto Thunderlink, na prática, é só um gabinete envolvendo uma NIC Broadcom
      Surpreende a Apple incluir o driver MLX5 até no iPadOS. Veja este blog relacionado
    • O macOS inclui drivers para placas Mellanox ConnectX, mas não se sabe se elas realmente aparecem no ibv_devices
  • Queria ver dados que medissem separadamente a velocidade de entrada (prefill) e a de saída (decode)
    Havia um texto da Exo dizendo que essas duas velocidades são bem diferentes no hardware da Apple

    • Há alguns dados relacionados nesta issue do GitHub.
      Estou pensando em sugerir à equipe da Exo que adicione um recurso de benchmark
  • Foi interessante ver que o Thunderbolt 5 não foi tão esmagador quanto se imaginava
    Em comparação com Ethernet de 2,5Gbps, o TB5 foi só cerca de 10% mais rápido. O M3 Studio suporta Ethernet de 10Gbps, mas isso não foi testado
    O TB5 tem o limite de 4 máquinas porque todos os CPUs precisam estar conectados diretamente entre si. Já com um switch Ethernet, dá para ligar mais nós

    • Este vídeo testa com Ethernet de 10Gbps
    • Pela experiência anterior com llama RPC, Ethernet de 10G quase não traz ganho de velocidade. Latência é mais importante, mas até isso tem limite
    • O llama ainda não estava muito otimizado, então sua escalabilidade era baixa. O RDMA tem menos overhead que Ethernet
  • Cada nó do cluster tem 512GB de RAM. O modelo DeepSeek V3.1 exige 700GB de RAM
    É estranho que ao passar de um nó para dois a velocidade de inferência só tenha melhorado 32%. Com 4 nós, o ganho continua abaixo de 50%
    Parece haver algum gargalo

    • A largura de banda da rede é de 80Gbps, então esse é o gargalo. Infiniband é 10 vezes mais rápido que isso
    • Os pesos (weights) do modelo são somente leitura, então dá para mapeá-los em memória a partir de um SSD. A limitação real é a memória de activation. Uma arquitetura MoE pode ajudar
    • O RDMA por TB5 é muito mais lento que o acesso direto à memória do sistema
  • Essa estrutura em que todos os nós se conectam entre si lembra o NUMALink da SGI.
    Os supercomputadores da SGI conectavam cada nó a todos os demais com dois links. Havia muitos cabos, mas não era preciso se preocupar com framing ou controle de congestionamento

    • O hardware da SGI implementava ccNUMA (cache-coherent NUMA). O sistema operacional IRIX movia tarefas e memória para mais perto fisicamente, reduzindo a latência
      É a mesma lógica usada hoje em sistemas de trading de alta frequência, que posicionam processos levando em conta os núcleos de CPU e a posição dos DIMMs
    • O rack NVL72 também usa uma estrutura parecida, conectando dezenas de links entre GPUs
  • Gostei de alguns detalhes curiosos mencionados no texto
    O desaparecimento misterioso da Exo, o fato de Jeff querer SMB Direct no Mac, a velocidade de inferência do M3 Ultra e até o desktop Framework AI de US$ 2100
    Saí com a sensação de ter encontrado um novo rabbit hole