A partir do macOS 26.2, fica possível montar clusters de IA rápidos com RDMA via Thunderbolt

(developer.apple.com)

11 pontos por GN⁺ 2025-12-13 | 4 comentários | Compartilhar no WhatsApp

O macOS Tahoe 26.2 adiciona o novo recurso de RDMA baseado em Thunderbolt 5, permitindo comunicação de baixa latência para casos como inferência distribuída de IA com MLX
Isso significa "tratar Macs como nós de computação distribuída de alta velocidade", permitindo que o macOS vá além de um simples SO de desktop e se expanda como plataforma local de experimentação em IA e HPC

O que é RDMA

RDMA (Remote Direct Memory Access) é um método de comunicação em que um computador acessa diretamente a memória de outro sem intervenção da CPU
Ao contornar a pilha de rede, a cópia no kernel e as trocas de contexto, reduz drasticamente a latência e aumenta muito a taxa de transferência
Tem sido usado principalmente em redes de datacenter como InfiniBand e RoCE
Tornou-se uma tecnologia padrão em computação de alto desempenho (HPC), armazenamento distribuído e treinamento e inferência de IA em larga escala
O ponto central é que "mesmo sendo comunicação de rede, funciona quase tão rápido quanto se estivesse usando a mesma memória"

O significado de RDMA over Thunderbolt

No macOS 26.2, há suporte a comunicação RDMA entre Macs conectados por Thunderbolt 5
Se antes o RDMA estava limitado a equipamentos de rede de nível de servidor, agora ele passa a ser possível também em clusters locais de Macs conectados com um único cabo
Fica possível aproveitar a alta largura de banda e a latência extremamente baixa do Thunderbolt diretamente no modelo RDMA
Em outras palavras, abriu-se um caminho para "agrupar vários Macs sobre a mesa como se fossem um datacenter"

Por que isso combina bem com cargas de trabalho de IA

Em treinamento ou inferência distribuída de IA, a troca de tensores entre nós costuma se tornar um gargalo
Nesse processo, o RDMA não consome CPU e fornece um padrão de comunicação próximo de GPU ↔ GPU
A inferência distribuída de IA baseada em MLX mencionada nas notas de lançamento foi projetada com esse tipo de comunicação de baixa latência e alta largura de banda como premissa
Isso amplia a possibilidade de distribuir um modelo entre vários Macs e montar um cluster de inferência que funcione como uma única máquina
Para equipes pequenas ou ambientes de pesquisa, "montar um cluster de IA com Macs sem precisar de servidores" passa a ser uma opção realista

Cenários de uso que passam a ser possíveis na prática

Conectar vários Mac Studio / Mac Pro por Thunderbolt para montar uma fazenda local de inferência de IA
Quando for difícil colocar um modelo grande em uma única GPU, torna-se possível experimentar inferência com particionamento de modelo
Simulações distribuídas locais, pipelines de dados de alta velocidade e pesquisa experimental em sistemas distribuídos
Redução significativa do custo para montar ambientes de prototipagem e PoC antes da migração para datacenter

4 comentários

bus710 2025-12-14

A rede Thunderbolt é realmente bem prática
Como dá para fazer daisy chain, nem precisa de hub

shakespeares 2025-12-13

Agora vai ter bastante gente conectando Macs para montar uma fazenda de inferência e rodar serviços de casa.

xguru 2025-12-13

As notas de lançamento oficiais da Apple têm apenas uma única linha dizendo que o "RDMA over Thunderbolt" passou a ser possível, então escrevi uma explicação adicional no GN+.

GN⁺ 2025-12-13

Comentários no Hacker News

Eu sigo o Twitter da equipe do MLX. Eles costumam compartilhar casos em que conectam dois ou mais Macs para rodar modelos que exigem mais de 512 GB de RAM
Por exemplo, Kimi K2 Thinking (1T parâmetros) e DeepSeek R1 (671B). No segundo caso, também foi fornecido um Gist com o guia de configuração
- Esses posts são exemplos de uso de paralelismo em pipeline. Quando há N máquinas, distribuem-se L/N camadas em cada uma. Não há ganho de velocidade, mas isso permite rodar modelos grandes demais para caber em uma única máquina
  Na futura versão Tahoe 26.2, será possível usar paralelismo de tensores. Cada camada será fragmentada entre várias máquinas e, com N máquinas, o desempenho pode chegar perto de N vezes. O grande desafio, porém, é a latência de comunicação
- Na semana passada, foi feito um teste de paralelismo de tensores com RDMA. Link do teste. Também foi mencionada uma forma de contornar a sincronização rápida (fast sync)
- Espero que isso não pareça tão atraente para quem não é especialista. Em cargas de trabalho paralelas ou no processamento de contexto, o desempenho não escala bem
  Ainda assim, é ótimo para quem quer experimentar LLMs localmente, mas não parece haver motivo para empresas com muito dinheiro comprarem isso em massa em vez de GPUs
- O mais surpreendente é o consumo de energia. Cerca de 50 W somando duas máquinas; fiquei até em dúvida se tinha lido certo
Comparei hardware para inferência com um orçamento de $50.000
- Cluster com Apple M3 Ultra ($50k): maximiza a capacidade (3 TB). É a única opção capaz de rodar modelos com 3T+ parâmetros, como o Kimi K2, mas a velocidade é baixa (~15 t/s)
- Workstation com NVIDIA RTX 6000 ($50k): maximiza a taxa de processamento (>80 t/s). É excelente tanto para treino quanto para inferência, mas fica limitada a 384 GB de VRAM, então só atende modelos com menos de 400B
- Para ter ao mesmo tempo essa mesma capacidade (3 TB) e mais de 100 t/s de throughput, seria necessário um cluster NVIDIA GH200 de cerca de $270.000. O cluster da Apple oferece 87% dessa capacidade por 18% do custo
- Dá para fazer ainda mais barato. Eu estou rodando o DeepSeek-R1 em uma workstation Xeon dual-socket (768 GB de RAM) de $2.000, a 1–2 tokens por segundo
- Fiquei curioso com essa conta de um cluster NVIDIA de $50k. Se cada RTX 6000 custa algo como $8k, então umas 5 dariam 40k e cerca de meio TB. Mesmo assim, para inferência, o Mac ainda parece eficiente, e o M5 Ultra deve mostrar uma relação custo-benefício ainda melhor
- Com o mesmo orçamento, também seria possível comprar 25 placas de desktop da Framework (cada uma com 128 GB de VRAM, com Strix Halo). Isso daria 3 TB de VRAM no total, mas fazer clustering disso parece bem desafiador
- Considerando o recurso de ganho de desempenho via paralelismo, que ainda não foi implementado, isso parece um negócio bastante interessante para ambientes on-premises de inferência
- A Apple usa LPDDR5X para reduzir consumo e custo, enquanto a NVIDIA prioriza desempenho com GDDR/HBM
Em meio ao caos atual do mercado de RAM, seria bem irônico se, graças à cadeia de suprimentos estável da Apple, os computadores da Apple acabassem se consolidando como a opção com melhor custo-benefício para montar clusters médios de inferência
- Vai ser meio complicado se usuários comerciais comprarem todos os Macs bons
- Em alguns usos, isso já está acontecendo
Estamos falando de juntar vários Mac Studios em um cluster, e isso me preocupa por causa das limitações físicas e de administração
1. A posição do botão de energia é estranha, o que é incômodo em rackmount
2. Thunderbolt é ótimo para periféricos, mas como interconexão de ligação permanente, a durabilidade da porta me preocupa
3. A qualidade do cabo importa. Em TB4/TB5, tive muitos problemas quando não usei cabos caros
4. A administração remota no macOS é menos eficiente do que no Linux. Por exemplo, fazer upgrade do macOS 26.1 para 26.2 sem GUI é difícil. Com sudo softwareupdate -i -a, só dá para fazer atualizações menores
- Sobre o ponto 2, o dock da OWC tem furos para parafuso de fixação de cabo. Com o OWC Thunderbolt Dock e o adaptador ClingOn, dá para reduzir o estresse na porta
- O problema do botão de energia pode ser resolvido com o gabinete RackMac Studio. Ele estende o botão mecanicamente
- Usar Thunderbolt como interconexão de servidor não é muito bonito do ponto de vista estético, mas, em rack e com tudo fixo, na verdade há até menos estresse físico
- Com uma solução MDM, dá para fazer não só atualizações de software, mas até LOM (gerenciamento remoto de energia). Existem MDMs open source também
- A versão rackmount do Mac Pro ainda está à venda, mas como não foi atualizada com M3 Ultra, provavelmente será descontinuada em breve
Seria ótimo se a Apple montasse sua própria nuvem baseada na série M, reforçasse o Metal para IA e oferecesse modelos de self-hosting com foco em privacidade. Acho que isso poderia ter muito sucesso em setores com muitos dados sensíveis
- Já existe algo parecido na forma do Private Cloud Compute, mas é voltado apenas para iUsers que usam modelos da Apple
- Em datacenters, em vez de memória grande por GPU, costuma ser mais eficiente usar fragmentação via interconexão rápida. As GPUs da NVIDIA e da AMD ainda têm vantagem em poder de computação
Fico curioso se esse recurso também pode ser usado em cargas distribuídas gerais, além de IA
- Testei com HPL e mpirun, mas por enquanto o RDMA ainda não é suportado e só dá para usar o modo Ring. É meio bruto, mas funciona
  Referência: guia de uso distribuído do MLX
Artigo relacionado: Engadget - Você pode transformar um cluster de Macs em um supercomputador de IA no macOS Tahoe 26.2
George Hotz conseguiu rodar uma GPU NVIDIA em um Mac via USB4 usando tinygrad
tweet do tinygrad
- Também há um exemplo de NVIDIA rodando em um Mac Pro 2023 com Linux
Não entendo muito bem o que é RDMA, mas isso quer dizer que dá para conectar vários Macs e executar inferência em paralelo? Se for isso, é um recurso realmente incrível
- Já era possível fazer inferência em vários Macs desde um ano atrás, mas agora isso funciona muito mais rápido