O resfriamento líquido do Google: revelado no Hot Chips 2025

(chipsandcheese.com)

4 pontos por GN⁺ 2025-08-26 | Ainda não há comentários. | Compartilhar no WhatsApp

Resfriamento líquido está se disseminando rapidamente para resolver os problemas de calor de chips de alta potência em datacenters
Como tem condutividade térmica cerca de 4.000 vezes maior que a do ar, o Google vem adotando a tecnologia ativamente, especialmente para atender à demanda de resfriamento de TPUs impulsionada pelo boom da IA
O Google opera loops de resfriamento líquido em nível de rack baseados em CDU (Coolant Distribution Unit), aumentando a facilidade de manutenção e a escalabilidade
Técnicas como split-flow cold plate e resfriamento bare-die (TPUv4), comuns no mercado de PCs de alto desempenho, foram aplicadas em escala de datacenter
O resfriamento líquido é eficiente, consumindo menos de 5% da energia em comparação com ventoinhas, e para lidar com problemas como vazamentos e crescimento de microrganismos, o Google combina validação rigorosa, sistemas de alerta e manutenção preventiva
NVIDIA, Rebellions AI e outras também estão adotando resfriamento líquido, acelerando a padronização do resfriamento de datacenters

Necessidade e contexto do resfriamento líquido

Resfriamento líquido é algo familiar entre entusiastas de PC e também tem longa história em ambientes corporativos de computação
Recentemente, com o aumento do consumo de energia de workloads de IA e machine learning, a importância do resfriamento líquido em datacenters cresceu muito
O Google destacou o fato de que a condutividade térmica da água é cerca de 4.000 vezes maior que a do ar e adotou isso como resposta ao calor elevado dos chips mais recentes
No Hot Chips 2025, o Google apresentou uma abordagem de resfriamento líquido em escala de datacenter relacionada ao resfriamento de TPUs, seus aceleradores de machine learning

O Google aplica resfriamento líquido em TPUs desde 2018, passando por vários experimentos e melhorias
A solução de resfriamento mais recente não se limita ao servidor, aplicando o loop de resfriamento líquido ao rack inteiro
Um rack de resfriamento é composto por 6 CDUs (Coolant Distribution Unit), que cumprem papel semelhante ao conjunto radiador+bomba em um PC
Foram adotadas mangueiras flexíveis e engates rápidos para melhorar a facilidade de manutenção e a tolerância de instalação
Mesmo com apenas 5 das 6 CDUs em operação, o resfriamento continua suficiente, dispensando a interrupção total do sistema durante a manutenção de uma unidade

A CDU troca apenas calor entre o fluido de resfriamento interno e a água de fornecimento externo do datacenter, sem mistura direta entre os dois líquidos
O fluido de resfriamento que sai da CDU é distribuído para vários servidores TPU por meio de um manifold
A conexão dos chips TPU segue uma estrutura sequencial (em série), e o orçamento total de resfriamento é calculado com base na demanda térmica do último chip do loop

A estrutura de split-flow cold plate foi aplicada para garantir desempenho de resfriamento superior em comparação com projetos lineares convencionais
Além disso, foi adotado o resfriamento bare-die (no TPUv4; o TPUv3 anterior era lidded), semelhante ao “delidding” usado por entusiastas de PCs avançados para melhorar a eficiência de transferência térmica
O TPUv4 exige essa abordagem adicional de resfriamento por consumir 1,6 vez mais energia que o v3

O consumo de energia das bombas de resfriamento líquido ficou abaixo de 5% em relação ao consumo das ventoinhas de sistemas convencionais a ar
O sistema do Google usa troca de calor water-to-water, de modo que a força motriz real do resfriamento fica majoritariamente a cargo das bombas
Em PCs de entusiastas, na maioria dos casos ainda permanece a combinação ventoinha+radiador, então o ganho energético não é tão grande quanto em datacenters

Do ponto de vista de manutenção, riscos comuns de sistemas de refrigeração líquida, como proliferação de microrganismos e vazamentos, também existem em escala de datacenter
Com conexões de engate rápido, CDUs de reserva e outros recursos voltados à manutenção, busca-se gerenciar em grande escala sem downtime
Foram estabelecidos manutenção preventiva, testes de vazamento, detecção de vários sinais de anomalia e protocolos sistemáticos de resposta para garantir consistência organizacional e confiabilidade
Isso contrasta com os métodos informais de manutenção adotados por entusiastas individuais de PC

NVIDIA, Rebellions AI e outras também exibiram vários sistemas externos de resfriamento líquido no Hot Chips 2025
- Servidor NVIDIA GB300: portas externas para resfriamento líquido junto com ventoinhas
- Rebellions AI, empresa coreana, demonstrou um protótipo do novo acelerador de ML “REBEL Quad” em uma abordagem semelhante, combinando cooler e chiller
O aumento dos workloads de IA deve acelerar ainda mais a demanda e a adoção de resfriamento líquido para datacenters no futuro