O resfriamento líquido do Google: revelado no Hot Chips 2025
(chipsandcheese.com)- Resfriamento líquido está se disseminando rapidamente para resolver os problemas de calor de chips de alta potência em datacenters
- Como tem condutividade térmica cerca de 4.000 vezes maior que a do ar, o Google vem adotando a tecnologia ativamente, especialmente para atender à demanda de resfriamento de TPUs impulsionada pelo boom da IA
- O Google opera loops de resfriamento líquido em nível de rack baseados em CDU (Coolant Distribution Unit), aumentando a facilidade de manutenção e a escalabilidade
- Técnicas como split-flow cold plate e resfriamento bare-die (TPUv4), comuns no mercado de PCs de alto desempenho, foram aplicadas em escala de datacenter
- O resfriamento líquido é eficiente, consumindo menos de 5% da energia em comparação com ventoinhas, e para lidar com problemas como vazamentos e crescimento de microrganismos, o Google combina validação rigorosa, sistemas de alerta e manutenção preventiva
- NVIDIA, Rebellions AI e outras também estão adotando resfriamento líquido, acelerando a padronização do resfriamento de datacenters
Necessidade e contexto do resfriamento líquido
- Resfriamento líquido é algo familiar entre entusiastas de PC e também tem longa história em ambientes corporativos de computação
- Recentemente, com o aumento do consumo de energia de workloads de IA e machine learning, a importância do resfriamento líquido em datacenters cresceu muito
- O Google destacou o fato de que a condutividade térmica da água é cerca de 4.000 vezes maior que a do ar e adotou isso como resposta ao calor elevado dos chips mais recentes
- No Hot Chips 2025, o Google apresentou uma abordagem de resfriamento líquido em escala de datacenter relacionada ao resfriamento de TPUs, seus aceleradores de machine learning
Estrutura do sistema de resfriamento líquido do Google
- O Google aplica resfriamento líquido em TPUs desde 2018, passando por vários experimentos e melhorias
- A solução de resfriamento mais recente não se limita ao servidor, aplicando o loop de resfriamento líquido ao rack inteiro
- Um rack de resfriamento é composto por 6 CDUs (Coolant Distribution Unit), que cumprem papel semelhante ao conjunto radiador+bomba em um PC
- Foram adotadas mangueiras flexíveis e engates rápidos para melhorar a facilidade de manutenção e a tolerância de instalação
- Mesmo com apenas 5 das 6 CDUs em operação, o resfriamento continua suficiente, dispensando a interrupção total do sistema durante a manutenção de uma unidade
Troca térmica e layout dos chips
- A CDU troca apenas calor entre o fluido de resfriamento interno e a água de fornecimento externo do datacenter, sem mistura direta entre os dois líquidos
- O fluido de resfriamento que sai da CDU é distribuído para vários servidores TPU por meio de um manifold
- A conexão dos chips TPU segue uma estrutura sequencial (em série), e o orçamento total de resfriamento é calculado com base na demanda térmica do último chip do loop
Otimização da tecnologia de resfriamento
- A estrutura de split-flow cold plate foi aplicada para garantir desempenho de resfriamento superior em comparação com projetos lineares convencionais
- Além disso, foi adotado o resfriamento bare-die (no TPUv4; o TPUv3 anterior era lidded), semelhante ao “delidding” usado por entusiastas de PCs avançados para melhorar a eficiência de transferência térmica
- O TPUv4 exige essa abordagem adicional de resfriamento por consumir 1,6 vez mais energia que o v3
Eficiência energética e transferência de calor
- O consumo de energia das bombas de resfriamento líquido ficou abaixo de 5% em relação ao consumo das ventoinhas de sistemas convencionais a ar
- O sistema do Google usa troca de calor water-to-water, de modo que a força motriz real do resfriamento fica majoritariamente a cargo das bombas
- Em PCs de entusiastas, na maioria dos casos ainda permanece a combinação ventoinha+radiador, então o ganho energético não é tão grande quanto em datacenters
Manutenção, confiabilidade e segurança
- Do ponto de vista de manutenção, riscos comuns de sistemas de refrigeração líquida, como proliferação de microrganismos e vazamentos, também existem em escala de datacenter
- Com conexões de engate rápido, CDUs de reserva e outros recursos voltados à manutenção, busca-se gerenciar em grande escala sem downtime
- Foram estabelecidos manutenção preventiva, testes de vazamento, detecção de vários sinais de anomalia e protocolos sistemáticos de resposta para garantir consistência organizacional e confiabilidade
- Isso contrasta com os métodos informais de manutenção adotados por entusiastas individuais de PC
Tendências do setor e o boom da IA
- NVIDIA, Rebellions AI e outras também exibiram vários sistemas externos de resfriamento líquido no Hot Chips 2025
- Servidor NVIDIA GB300: portas externas para resfriamento líquido junto com ventoinhas
- Rebellions AI, empresa coreana, demonstrou um protótipo do novo acelerador de ML “REBEL Quad” em uma abordagem semelhante, combinando cooler e chiller
- O aumento dos workloads de IA deve acelerar ainda mais a demanda e a adoção de resfriamento líquido para datacenters no futuro
1 comentários
Comentários no Hacker News
Vi certa vez uma entrevista com um SVP responsável por supervisionar a construção de datacenters do Azure; o que ficou na minha memória foi ele dizer que, em algum momento, percebeu que não trabalhava mais no negócio de computadores, mas no de refrigeração industrial, e que isso tornou tudo muito mais fácil de entender. Ao ler esta matéria, pensei imediatamente nessa história.
Mainframes (S/3x0, Cray etc.) usam refrigeração a água amplamente há mais de 50 anos, e datacenters de HPC em nível de supercomputador também usam refrigeração líquida há pelo menos 20 anos, então comparar o projeto de um datacenter no nível do Google com cooling de entusiastas de PC parece um pouco estranho. Isso soa como esquecimento do passado ou um exemplo comparativo completamente inadequado.
per-row cooling).Em teoria, a refrigeração de datacenter é simples. O CPU opera a 60–70 graus, e a temperatura externa geralmente fica abaixo de 30, então, com uma pequena ajuda de ventoinhas e bombas, o calor naturalmente “escorre” para fora. O problema é que, no resfriamento a ar, os funcionários da instalação precisam respirar o mesmo ar usado para resfriar os computadores. Quando a temperatura do ambiente sobe, isso não é bom para a saúde deles (nós operamos corredores quentes a cerca de 100F até no inverno e instalamos trocadores de calor a cada três racks, resfriados com água gelada externa). Quando a temperatura externa sobe, o fluido de resfriamento precisa estar ainda mais quente para conseguir jogar esse calor para fora da instalação, e aí o chiller se torna necessário. Em dias de calor intenso, o consumo de energia também aumenta bastante. Se um datacenter inteiro fosse convertido para refrigeração líquida, acho que a temperatura do coolant que sai dos racks poderia ser muito mais alta, e talvez fosse possível dissipar calor sem chiller mesmo nas épocas mais quentes. Hoje só parte do sistema é líquida, e a temperatura do coolant é limitada para acompanhar a temperatura do corredor quente; e, mesmo assim, isso já parece bem quente.
A matéria falava sobre conectar chips TPU em série, fazendo o coolant passar em loop por eles e orçando a capacidade com base na temperatura do último chip. Se quatro chips dissipam 250W cada e a bomba empurra 1 litro de água por minuto, a saída necessariamente ficará 14 graus mais quente do que a entrada. Isso é igual em série ou em paralelo (por causa do calor específico da água).
Já não fico tão impressionado com a infraestrutura do Google como antes. Minha opinião sobre o Google piorou bastante porque a empresa continua tomando medidas que prejudicam a liberdade na internet. Então agora até coisas como esse sistema de refrigeração líquida que eles adotam já não me despertam muita reação. Dependendo dos detalhes, talvez seja difícil de fazer, mas não parece particularmente inovador. Se algum funcionário do Google ler isso e ficar chateado, eu diria que o problema não é a pessoa em si, mas o próprio Google. Talvez valha considerar fazer coisas legais em outro lugar.
Isso me lembrou um caso interessante que vi no B1M: a piscina olímpica de Paris é aquecida pelo calor da internet: vídeo no YouTube
Vejo com frequência comentários de que a IA desperdiça água, então fiquei pensando se este caso se encaixa nisso. Gostaria de saber se a CDU usa água da instalação em resfriamento evaporativo.
Tenho curiosidade sobre a viabilidade econômica da refrigeração a água. Será que ela passou a valer a pena porque os chips ficaram caros e é necessário rodá-los mais rápido, ou porque o espaço de datacenter ficou caro e é preciso aumentar a densidade, ou ainda porque reduzir a distância de transmissão de sinal (1 pé = 1 nanossegundo) melhora a eficiência computacional nessa proporção?
Em teoria, usuários de PC também poderiam circular o fluido de dissipação pelo reservatório do vaso sanitário e resfriar o sistema de forma eficiente a cada descarga. O futuro está aqui.
Trabalhei com frequência em datacenters entre 2006 e 2012. Muitas vezes precisava ir lá tarde da noite. Datacenters são ambientes mais duros do que muita gente imagina. Seria bom se a refrigeração fosse um pouco mais silenciosa e menos extrema. O motivo de portas e afins ficarem na parte de trás é justamente porque aquele lado é a entrada de ar. Já tive de ir para o lado quente para esquentar as mãos.