- Resfriamento líquido está se disseminando rapidamente para resolver os problemas de calor de chips de alta potência em datacenters
- Como tem condutividade térmica cerca de 4.000 vezes maior que a do ar, o Google vem adotando a tecnologia ativamente, especialmente para atender à demanda de resfriamento de TPUs impulsionada pelo boom da IA
- O Google opera loops de resfriamento líquido em nível de rack baseados em CDU (Coolant Distribution Unit), aumentando a facilidade de manutenção e a escalabilidade
- Técnicas como split-flow cold plate e resfriamento bare-die (TPUv4), comuns no mercado de PCs de alto desempenho, foram aplicadas em escala de datacenter
- O resfriamento líquido é eficiente, consumindo menos de 5% da energia em comparação com ventoinhas, e para lidar com problemas como vazamentos e crescimento de microrganismos, o Google combina validação rigorosa, sistemas de alerta e manutenção preventiva
- NVIDIA, Rebellions AI e outras também estão adotando resfriamento líquido, acelerando a padronização do resfriamento de datacenters
Necessidade e contexto do resfriamento líquido
- Resfriamento líquido é algo familiar entre entusiastas de PC e também tem longa história em ambientes corporativos de computação
- Recentemente, com o aumento do consumo de energia de workloads de IA e machine learning, a importância do resfriamento líquido em datacenters cresceu muito
- O Google destacou o fato de que a condutividade térmica da água é cerca de 4.000 vezes maior que a do ar e adotou isso como resposta ao calor elevado dos chips mais recentes
- No Hot Chips 2025, o Google apresentou uma abordagem de resfriamento líquido em escala de datacenter relacionada ao resfriamento de TPUs, seus aceleradores de machine learning
Estrutura do sistema de resfriamento líquido do Google
- O Google aplica resfriamento líquido em TPUs desde 2018, passando por vários experimentos e melhorias
- A solução de resfriamento mais recente não se limita ao servidor, aplicando o loop de resfriamento líquido ao rack inteiro
- Um rack de resfriamento é composto por 6 CDUs (Coolant Distribution Unit), que cumprem papel semelhante ao conjunto radiador+bomba em um PC
- Foram adotadas mangueiras flexíveis e engates rápidos para melhorar a facilidade de manutenção e a tolerância de instalação
- Mesmo com apenas 5 das 6 CDUs em operação, o resfriamento continua suficiente, dispensando a interrupção total do sistema durante a manutenção de uma unidade
Troca térmica e layout dos chips
- A CDU troca apenas calor entre o fluido de resfriamento interno e a água de fornecimento externo do datacenter, sem mistura direta entre os dois líquidos
- O fluido de resfriamento que sai da CDU é distribuído para vários servidores TPU por meio de um manifold
- A conexão dos chips TPU segue uma estrutura sequencial (em série), e o orçamento total de resfriamento é calculado com base na demanda térmica do último chip do loop
Otimização da tecnologia de resfriamento
- A estrutura de split-flow cold plate foi aplicada para garantir desempenho de resfriamento superior em comparação com projetos lineares convencionais
- Além disso, foi adotado o resfriamento bare-die (no TPUv4; o TPUv3 anterior era lidded), semelhante ao “delidding” usado por entusiastas de PCs avançados para melhorar a eficiência de transferência térmica
- O TPUv4 exige essa abordagem adicional de resfriamento por consumir 1,6 vez mais energia que o v3
Eficiência energética e transferência de calor
- O consumo de energia das bombas de resfriamento líquido ficou abaixo de 5% em relação ao consumo das ventoinhas de sistemas convencionais a ar
- O sistema do Google usa troca de calor water-to-water, de modo que a força motriz real do resfriamento fica majoritariamente a cargo das bombas
- Em PCs de entusiastas, na maioria dos casos ainda permanece a combinação ventoinha+radiador, então o ganho energético não é tão grande quanto em datacenters
Manutenção, confiabilidade e segurança
- Do ponto de vista de manutenção, riscos comuns de sistemas de refrigeração líquida, como proliferação de microrganismos e vazamentos, também existem em escala de datacenter
- Com conexões de engate rápido, CDUs de reserva e outros recursos voltados à manutenção, busca-se gerenciar em grande escala sem downtime
- Foram estabelecidos manutenção preventiva, testes de vazamento, detecção de vários sinais de anomalia e protocolos sistemáticos de resposta para garantir consistência organizacional e confiabilidade
- Isso contrasta com os métodos informais de manutenção adotados por entusiastas individuais de PC
Tendências do setor e o boom da IA
- NVIDIA, Rebellions AI e outras também exibiram vários sistemas externos de resfriamento líquido no Hot Chips 2025
- Servidor NVIDIA GB300: portas externas para resfriamento líquido junto com ventoinhas
- Rebellions AI, empresa coreana, demonstrou um protótipo do novo acelerador de ML “REBEL Quad” em uma abordagem semelhante, combinando cooler e chiller
- O aumento dos workloads de IA deve acelerar ainda mais a demanda e a adoção de resfriamento líquido para datacenters no futuro
Ainda não há comentários.