11 pontos por GN⁺ 2025-12-13 | 4 comentários | Compartilhar no WhatsApp
  • O macOS Tahoe 26.2 adiciona o novo recurso de RDMA baseado em Thunderbolt 5, permitindo comunicação de baixa latência para casos como inferência distribuída de IA com MLX
  • Isso significa "tratar Macs como nós de computação distribuída de alta velocidade", permitindo que o macOS vá além de um simples SO de desktop e se expanda como plataforma local de experimentação em IA e HPC

O que é RDMA

  • RDMA (Remote Direct Memory Access) é um método de comunicação em que um computador acessa diretamente a memória de outro sem intervenção da CPU
  • Ao contornar a pilha de rede, a cópia no kernel e as trocas de contexto, reduz drasticamente a latência e aumenta muito a taxa de transferência
  • Tem sido usado principalmente em redes de datacenter como InfiniBand e RoCE
  • Tornou-se uma tecnologia padrão em computação de alto desempenho (HPC), armazenamento distribuído e treinamento e inferência de IA em larga escala
  • O ponto central é que "mesmo sendo comunicação de rede, funciona quase tão rápido quanto se estivesse usando a mesma memória"

O significado de RDMA over Thunderbolt

  • No macOS 26.2, há suporte a comunicação RDMA entre Macs conectados por Thunderbolt 5
  • Se antes o RDMA estava limitado a equipamentos de rede de nível de servidor, agora ele passa a ser possível também em clusters locais de Macs conectados com um único cabo
  • Fica possível aproveitar a alta largura de banda e a latência extremamente baixa do Thunderbolt diretamente no modelo RDMA
  • Em outras palavras, abriu-se um caminho para "agrupar vários Macs sobre a mesa como se fossem um datacenter"

Por que isso combina bem com cargas de trabalho de IA

  • Em treinamento ou inferência distribuída de IA, a troca de tensores entre nós costuma se tornar um gargalo
  • Nesse processo, o RDMA não consome CPU e fornece um padrão de comunicação próximo de GPU ↔ GPU
  • A inferência distribuída de IA baseada em MLX mencionada nas notas de lançamento foi projetada com esse tipo de comunicação de baixa latência e alta largura de banda como premissa
  • Isso amplia a possibilidade de distribuir um modelo entre vários Macs e montar um cluster de inferência que funcione como uma única máquina
  • Para equipes pequenas ou ambientes de pesquisa, "montar um cluster de IA com Macs sem precisar de servidores" passa a ser uma opção realista

Cenários de uso que passam a ser possíveis na prática

  • Conectar vários Mac Studio / Mac Pro por Thunderbolt para montar uma fazenda local de inferência de IA
  • Quando for difícil colocar um modelo grande em uma única GPU, torna-se possível experimentar inferência com particionamento de modelo
  • Simulações distribuídas locais, pipelines de dados de alta velocidade e pesquisa experimental em sistemas distribuídos
  • Redução significativa do custo para montar ambientes de prototipagem e PoC antes da migração para datacenter

4 comentários

 
bus710 2025-12-14

A rede Thunderbolt é realmente bem prática
Como dá para fazer daisy chain, nem precisa de hub

 
shakespeares 2025-12-13

Agora vai ter bastante gente conectando Macs para montar uma fazenda de inferência e rodar serviços de casa.

 
xguru 2025-12-13

As notas de lançamento oficiais da Apple têm apenas uma única linha dizendo que o "RDMA over Thunderbolt" passou a ser possível, então escrevi uma explicação adicional no GN+.

 
GN⁺ 2025-12-13
Comentários no Hacker News
  • Eu sigo o Twitter da equipe do MLX. Eles costumam compartilhar casos em que conectam dois ou mais Macs para rodar modelos que exigem mais de 512 GB de RAM
    Por exemplo, Kimi K2 Thinking (1T parâmetros) e DeepSeek R1 (671B). No segundo caso, também foi fornecido um Gist com o guia de configuração

    • Esses posts são exemplos de uso de paralelismo em pipeline. Quando há N máquinas, distribuem-se L/N camadas em cada uma. Não há ganho de velocidade, mas isso permite rodar modelos grandes demais para caber em uma única máquina
      Na futura versão Tahoe 26.2, será possível usar paralelismo de tensores. Cada camada será fragmentada entre várias máquinas e, com N máquinas, o desempenho pode chegar perto de N vezes. O grande desafio, porém, é a latência de comunicação
    • Na semana passada, foi feito um teste de paralelismo de tensores com RDMA. Link do teste. Também foi mencionada uma forma de contornar a sincronização rápida (fast sync)
    • Espero que isso não pareça tão atraente para quem não é especialista. Em cargas de trabalho paralelas ou no processamento de contexto, o desempenho não escala bem
      Ainda assim, é ótimo para quem quer experimentar LLMs localmente, mas não parece haver motivo para empresas com muito dinheiro comprarem isso em massa em vez de GPUs
    • O mais surpreendente é o consumo de energia. Cerca de 50 W somando duas máquinas; fiquei até em dúvida se tinha lido certo
  • Comparei hardware para inferência com um orçamento de $50.000

    • Cluster com Apple M3 Ultra ($50k): maximiza a capacidade (3 TB). É a única opção capaz de rodar modelos com 3T+ parâmetros, como o Kimi K2, mas a velocidade é baixa (~15 t/s)
    • Workstation com NVIDIA RTX 6000 ($50k): maximiza a taxa de processamento (>80 t/s). É excelente tanto para treino quanto para inferência, mas fica limitada a 384 GB de VRAM, então só atende modelos com menos de 400B
    • Para ter ao mesmo tempo essa mesma capacidade (3 TB) e mais de 100 t/s de throughput, seria necessário um cluster NVIDIA GH200 de cerca de $270.000. O cluster da Apple oferece 87% dessa capacidade por 18% do custo
    • Dá para fazer ainda mais barato. Eu estou rodando o DeepSeek-R1 em uma workstation Xeon dual-socket (768 GB de RAM) de $2.000, a 1–2 tokens por segundo
    • Fiquei curioso com essa conta de um cluster NVIDIA de $50k. Se cada RTX 6000 custa algo como $8k, então umas 5 dariam 40k e cerca de meio TB. Mesmo assim, para inferência, o Mac ainda parece eficiente, e o M5 Ultra deve mostrar uma relação custo-benefício ainda melhor
    • Com o mesmo orçamento, também seria possível comprar 25 placas de desktop da Framework (cada uma com 128 GB de VRAM, com Strix Halo). Isso daria 3 TB de VRAM no total, mas fazer clustering disso parece bem desafiador
    • Considerando o recurso de ganho de desempenho via paralelismo, que ainda não foi implementado, isso parece um negócio bastante interessante para ambientes on-premises de inferência
    • A Apple usa LPDDR5X para reduzir consumo e custo, enquanto a NVIDIA prioriza desempenho com GDDR/HBM
  • Em meio ao caos atual do mercado de RAM, seria bem irônico se, graças à cadeia de suprimentos estável da Apple, os computadores da Apple acabassem se consolidando como a opção com melhor custo-benefício para montar clusters médios de inferência

    • Vai ser meio complicado se usuários comerciais comprarem todos os Macs bons
    • Em alguns usos, isso já está acontecendo
  • Estamos falando de juntar vários Mac Studios em um cluster, e isso me preocupa por causa das limitações físicas e de administração

    1. A posição do botão de energia é estranha, o que é incômodo em rackmount
    2. Thunderbolt é ótimo para periféricos, mas como interconexão de ligação permanente, a durabilidade da porta me preocupa
    3. A qualidade do cabo importa. Em TB4/TB5, tive muitos problemas quando não usei cabos caros
    4. A administração remota no macOS é menos eficiente do que no Linux. Por exemplo, fazer upgrade do macOS 26.1 para 26.2 sem GUI é difícil. Com sudo softwareupdate -i -a, só dá para fazer atualizações menores
    • Sobre o ponto 2, o dock da OWC tem furos para parafuso de fixação de cabo. Com o OWC Thunderbolt Dock e o adaptador ClingOn, dá para reduzir o estresse na porta
    • O problema do botão de energia pode ser resolvido com o gabinete RackMac Studio. Ele estende o botão mecanicamente
    • Usar Thunderbolt como interconexão de servidor não é muito bonito do ponto de vista estético, mas, em rack e com tudo fixo, na verdade há até menos estresse físico
    • Com uma solução MDM, dá para fazer não só atualizações de software, mas até LOM (gerenciamento remoto de energia). Existem MDMs open source também
    • A versão rackmount do Mac Pro ainda está à venda, mas como não foi atualizada com M3 Ultra, provavelmente será descontinuada em breve
  • Seria ótimo se a Apple montasse sua própria nuvem baseada na série M, reforçasse o Metal para IA e oferecesse modelos de self-hosting com foco em privacidade. Acho que isso poderia ter muito sucesso em setores com muitos dados sensíveis

    • Já existe algo parecido na forma do Private Cloud Compute, mas é voltado apenas para iUsers que usam modelos da Apple
    • Em datacenters, em vez de memória grande por GPU, costuma ser mais eficiente usar fragmentação via interconexão rápida. As GPUs da NVIDIA e da AMD ainda têm vantagem em poder de computação
  • Fico curioso se esse recurso também pode ser usado em cargas distribuídas gerais, além de IA

    • Testei com HPL e mpirun, mas por enquanto o RDMA ainda não é suportado e só dá para usar o modo Ring. É meio bruto, mas funciona
      Referência: guia de uso distribuído do MLX
  • Artigo relacionado: Engadget - Você pode transformar um cluster de Macs em um supercomputador de IA no macOS Tahoe 26.2

  • George Hotz conseguiu rodar uma GPU NVIDIA em um Mac via USB4 usando tinygrad
    tweet do tinygrad

  • Não entendo muito bem o que é RDMA, mas isso quer dizer que dá para conectar vários Macs e executar inferência em paralelo? Se for isso, é um recurso realmente incrível

    • Já era possível fazer inferência em vários Macs desde um ano atrás, mas agora isso funciona muito mais rápido