4 pontos por GN⁺ 2025-08-26 | Ainda não há comentários. | Compartilhar no WhatsApp
  • Resfriamento líquido está se disseminando rapidamente para resolver os problemas de calor de chips de alta potência em datacenters
  • Como tem condutividade térmica cerca de 4.000 vezes maior que a do ar, o Google vem adotando a tecnologia ativamente, especialmente para atender à demanda de resfriamento de TPUs impulsionada pelo boom da IA
  • O Google opera loops de resfriamento líquido em nível de rack baseados em CDU (Coolant Distribution Unit), aumentando a facilidade de manutenção e a escalabilidade
  • Técnicas como split-flow cold plate e resfriamento bare-die (TPUv4), comuns no mercado de PCs de alto desempenho, foram aplicadas em escala de datacenter
  • O resfriamento líquido é eficiente, consumindo menos de 5% da energia em comparação com ventoinhas, e para lidar com problemas como vazamentos e crescimento de microrganismos, o Google combina validação rigorosa, sistemas de alerta e manutenção preventiva
  • NVIDIA, Rebellions AI e outras também estão adotando resfriamento líquido, acelerando a padronização do resfriamento de datacenters

Necessidade e contexto do resfriamento líquido

  • Resfriamento líquido é algo familiar entre entusiastas de PC e também tem longa história em ambientes corporativos de computação
  • Recentemente, com o aumento do consumo de energia de workloads de IA e machine learning, a importância do resfriamento líquido em datacenters cresceu muito
  • O Google destacou o fato de que a condutividade térmica da água é cerca de 4.000 vezes maior que a do ar e adotou isso como resposta ao calor elevado dos chips mais recentes
  • No Hot Chips 2025, o Google apresentou uma abordagem de resfriamento líquido em escala de datacenter relacionada ao resfriamento de TPUs, seus aceleradores de machine learning

Estrutura do sistema de resfriamento líquido do Google

  • O Google aplica resfriamento líquido em TPUs desde 2018, passando por vários experimentos e melhorias
  • A solução de resfriamento mais recente não se limita ao servidor, aplicando o loop de resfriamento líquido ao rack inteiro
  • Um rack de resfriamento é composto por 6 CDUs (Coolant Distribution Unit), que cumprem papel semelhante ao conjunto radiador+bomba em um PC
  • Foram adotadas mangueiras flexíveis e engates rápidos para melhorar a facilidade de manutenção e a tolerância de instalação
  • Mesmo com apenas 5 das 6 CDUs em operação, o resfriamento continua suficiente, dispensando a interrupção total do sistema durante a manutenção de uma unidade

Troca térmica e layout dos chips

  • A CDU troca apenas calor entre o fluido de resfriamento interno e a água de fornecimento externo do datacenter, sem mistura direta entre os dois líquidos
  • O fluido de resfriamento que sai da CDU é distribuído para vários servidores TPU por meio de um manifold
  • A conexão dos chips TPU segue uma estrutura sequencial (em série), e o orçamento total de resfriamento é calculado com base na demanda térmica do último chip do loop

Otimização da tecnologia de resfriamento

  • A estrutura de split-flow cold plate foi aplicada para garantir desempenho de resfriamento superior em comparação com projetos lineares convencionais
  • Além disso, foi adotado o resfriamento bare-die (no TPUv4; o TPUv3 anterior era lidded), semelhante ao “delidding” usado por entusiastas de PCs avançados para melhorar a eficiência de transferência térmica
  • O TPUv4 exige essa abordagem adicional de resfriamento por consumir 1,6 vez mais energia que o v3

Eficiência energética e transferência de calor

  • O consumo de energia das bombas de resfriamento líquido ficou abaixo de 5% em relação ao consumo das ventoinhas de sistemas convencionais a ar
  • O sistema do Google usa troca de calor water-to-water, de modo que a força motriz real do resfriamento fica majoritariamente a cargo das bombas
  • Em PCs de entusiastas, na maioria dos casos ainda permanece a combinação ventoinha+radiador, então o ganho energético não é tão grande quanto em datacenters

Manutenção, confiabilidade e segurança

  • Do ponto de vista de manutenção, riscos comuns de sistemas de refrigeração líquida, como proliferação de microrganismos e vazamentos, também existem em escala de datacenter
  • Com conexões de engate rápido, CDUs de reserva e outros recursos voltados à manutenção, busca-se gerenciar em grande escala sem downtime
  • Foram estabelecidos manutenção preventiva, testes de vazamento, detecção de vários sinais de anomalia e protocolos sistemáticos de resposta para garantir consistência organizacional e confiabilidade
  • Isso contrasta com os métodos informais de manutenção adotados por entusiastas individuais de PC

Tendências do setor e o boom da IA

  • NVIDIA, Rebellions AI e outras também exibiram vários sistemas externos de resfriamento líquido no Hot Chips 2025
    • Servidor NVIDIA GB300: portas externas para resfriamento líquido junto com ventoinhas
    • Rebellions AI, empresa coreana, demonstrou um protótipo do novo acelerador de ML “REBEL Quad” em uma abordagem semelhante, combinando cooler e chiller
  • O aumento dos workloads de IA deve acelerar ainda mais a demanda e a adoção de resfriamento líquido para datacenters no futuro

Ainda não há comentários.

Ainda não há comentários.