- O macOS Tahoe 26.2 adiciona o novo recurso de RDMA baseado em Thunderbolt 5, permitindo comunicação de baixa latência para casos como inferência distribuída de IA com MLX
- Isso significa "tratar Macs como nós de computação distribuída de alta velocidade", permitindo que o macOS vá além de um simples SO de desktop e se expanda como plataforma local de experimentação em IA e HPC
O que é RDMA
- RDMA (Remote Direct Memory Access) é um método de comunicação em que um computador acessa diretamente a memória de outro sem intervenção da CPU
- Ao contornar a pilha de rede, a cópia no kernel e as trocas de contexto, reduz drasticamente a latência e aumenta muito a taxa de transferência
- Tem sido usado principalmente em redes de datacenter como InfiniBand e RoCE
- Tornou-se uma tecnologia padrão em computação de alto desempenho (HPC), armazenamento distribuído e treinamento e inferência de IA em larga escala
- O ponto central é que "mesmo sendo comunicação de rede, funciona quase tão rápido quanto se estivesse usando a mesma memória"
O significado de RDMA over Thunderbolt
- No macOS 26.2, há suporte a comunicação RDMA entre Macs conectados por Thunderbolt 5
- Se antes o RDMA estava limitado a equipamentos de rede de nível de servidor, agora ele passa a ser possível também em clusters locais de Macs conectados com um único cabo
- Fica possível aproveitar a alta largura de banda e a latência extremamente baixa do Thunderbolt diretamente no modelo RDMA
- Em outras palavras, abriu-se um caminho para "agrupar vários Macs sobre a mesa como se fossem um datacenter"
Por que isso combina bem com cargas de trabalho de IA
- Em treinamento ou inferência distribuída de IA, a troca de tensores entre nós costuma se tornar um gargalo
- Nesse processo, o RDMA não consome CPU e fornece um padrão de comunicação próximo de GPU ↔ GPU
- A inferência distribuída de IA baseada em MLX mencionada nas notas de lançamento foi projetada com esse tipo de comunicação de baixa latência e alta largura de banda como premissa
- Isso amplia a possibilidade de distribuir um modelo entre vários Macs e montar um cluster de inferência que funcione como uma única máquina
- Para equipes pequenas ou ambientes de pesquisa, "montar um cluster de IA com Macs sem precisar de servidores" passa a ser uma opção realista
Cenários de uso que passam a ser possíveis na prática
- Conectar vários Mac Studio / Mac Pro por Thunderbolt para montar uma fazenda local de inferência de IA
- Quando for difícil colocar um modelo grande em uma única GPU, torna-se possível experimentar inferência com particionamento de modelo
- Simulações distribuídas locais, pipelines de dados de alta velocidade e pesquisa experimental em sistemas distribuídos
- Redução significativa do custo para montar ambientes de prototipagem e PoC antes da migração para datacenter
4 comentários
A rede Thunderbolt é realmente bem prática
Como dá para fazer daisy chain, nem precisa de hub
Agora vai ter bastante gente conectando Macs para montar uma fazenda de inferência e rodar serviços de casa.
As notas de lançamento oficiais da Apple têm apenas uma única linha dizendo que o "RDMA over Thunderbolt" passou a ser possível, então escrevi uma explicação adicional no GN+.
Comentários no Hacker News
Eu sigo o Twitter da equipe do MLX. Eles costumam compartilhar casos em que conectam dois ou mais Macs para rodar modelos que exigem mais de 512 GB de RAM
Por exemplo, Kimi K2 Thinking (1T parâmetros) e DeepSeek R1 (671B). No segundo caso, também foi fornecido um Gist com o guia de configuração
Na futura versão Tahoe 26.2, será possível usar paralelismo de tensores. Cada camada será fragmentada entre várias máquinas e, com N máquinas, o desempenho pode chegar perto de N vezes. O grande desafio, porém, é a latência de comunicação
Ainda assim, é ótimo para quem quer experimentar LLMs localmente, mas não parece haver motivo para empresas com muito dinheiro comprarem isso em massa em vez de GPUs
Comparei hardware para inferência com um orçamento de $50.000
Em meio ao caos atual do mercado de RAM, seria bem irônico se, graças à cadeia de suprimentos estável da Apple, os computadores da Apple acabassem se consolidando como a opção com melhor custo-benefício para montar clusters médios de inferência
Estamos falando de juntar vários Mac Studios em um cluster, e isso me preocupa por causa das limitações físicas e de administração
sudo softwareupdate -i -a, só dá para fazer atualizações menoresSeria ótimo se a Apple montasse sua própria nuvem baseada na série M, reforçasse o Metal para IA e oferecesse modelos de self-hosting com foco em privacidade. Acho que isso poderia ter muito sucesso em setores com muitos dados sensíveis
Fico curioso se esse recurso também pode ser usado em cargas distribuídas gerais, além de IA
Referência: guia de uso distribuído do MLX
Artigo relacionado: Engadget - Você pode transformar um cluster de Macs em um supercomputador de IA no macOS Tahoe 26.2
George Hotz conseguiu rodar uma GPU NVIDIA em um Mac via USB4 usando tinygrad
tweet do tinygrad
Não entendo muito bem o que é RDMA, mas isso quer dizer que dá para conectar vários Macs e executar inferência em paralelo? Se for isso, é um recurso realmente incrível