1 pontos por GN⁺ 4 시간 전 | 1 comentários | Compartilhar no WhatsApp
  • Com o aumento da densidade de potência dos servidores de IA, a refrigeração se tornou o principal gargalo de custo e uso de água nos data centers, e a NVIDIA apresenta na geração Rubin um projeto que opera o fluido de refrigeração em até 45°C
  • A infraestrutura de IA da geração Rubin adota uma arquitetura de 100% refrigeração líquida que resfria sem ventiladores até os chips e componentes de rede, com foco em loop fechado e dry coolers
  • Em climas favoráveis, é possível reduzir para quase zero o consumo anual de cerca de 2,6 milhões de galões de água por megawatt usado por sistemas tradicionais baseados em torres de resfriamento, com economia de até 100%
  • O fluido a 45°C absorve o calor dos chips e sai em cerca de 55°C, ainda dentro dos limites validados de operação, e os servidores dependem menos de ar frio
  • A refrigeração totalmente líquida reduz ventiladores, corredores frio/quente e espaço de infraestrutura de arrefecimento a ar, aumenta a densidade por rack e diminui a carga de custo de refrigeração diante do crescimento da demanda por computação de IA

100% de refrigeração líquida na geração Rubin

  • Os servidores de IA mais recentes da NVIDIA podem operar com fluido de refrigeração em até 45°C, ou 113°F
  • A infraestrutura de IA NVIDIA da geração Rubin alcança 100% de refrigeração líquida, resfriando com líquido todos os chips e componentes de rede
    • Não há ventiladores em nenhuma parte do sistema
    • A refrigeração ocorre dentro de um loop fechado
  • Essa abordagem está incluída no projeto de referência de fábrica de IA NVIDIA DSX, que reúne boas práticas de projeto, construção e operação da pilha de infraestrutura de fábricas de IA
  • À medida que cada geração aumenta o desempenho computacional por watt, a infraestrutura de computação de IA totalmente refrigerada a líquido pode reduzir de forma significativa o consumo de energia com refrigeração em data centers hiperescaláveis

Estrutura para reduzir o uso de água e energia

  • O projeto de referência NVIDIA DSX para fábricas de IA tem como meta consumo zero de água e busca reduzir o grande uso de energia e quase todo o uso de água
  • O projeto baseado em dry coolers usa um sistema de loop fechado, portanto não recorre a resfriamento evaporativo com água
    • Em alguns climas, chillers podem ser necessários por apenas cerca de 1% do ano
  • Historicamente, a refrigeração já representou até 40% do consumo de energia de um data center
  • Estimativas do setor indicam que elevar em 1°C a temperatura da planta de chillers pode reduzir os custos de energia de refrigeração em cerca de 4%
  • Uma instalação hiperescalável de 50 MW pode economizar mais de US$ 4 milhões por ano em energia e água relacionadas à refrigeração ao migrar para infraestrutura de refrigeração líquida
  • Em climas favoráveis, a arquitetura de refrigeração líquida a 45°C permite operação sem chiller e pode reduzir para quase zero o uso anual de cerca de 2,6 milhões de galões de água por megawatt dos sistemas tradicionais baseados em torres de resfriamento

Um data center frio nem sempre é mais eficiente

  • Por muito tempo, o setor sustentou a percepção de que data centers frios eram mais eficientes
  • Na prática, os chips podem operar em ambientes bem mais quentes do que a intuição sugere
  • Quando fluido de refrigeração a 45°C entra em chips totalmente refrigerados a líquido, ele absorve o calor da superfície do chip e sai em cerca de 55°C
  • Mesmo nesse processo, não há perda de desempenho
    • As cold plates de refrigeração líquida mantêm a temperatura dos dispositivos dentro dos limites validados de operação
    • Mesmo com o fluido entrando no rack a 45°C, os processadores continuam operando com desempenho máximo
  • Como os servidores não dependem de ar frio, a temperatura do ar ambiente no data center pode ser ajustada com muito mais flexibilidade

Estrutura de servidor com menos ventiladores e corredores frio/quente

  • Data centers tradicionais dependem fortemente do ruído dos ventiladores e da gestão de corredores frio/quente
    • Os ventiladores de refrigeração podem elevar o ruído total para mais de 85 dB
    • Esse nível é alto o suficiente para exigir equipamentos de proteção auditiva
  • A arquitetura Rubin desloca a refrigeração do fluxo de ar para loops líquidos
  • O fluido de refrigeração é composto por 75% de água e 25% de propilenoglicol
  • Esse fluido passa por cold plates posicionadas diretamente sobre os processadores e absorve o calor na origem
  • Ao operar o fluido em até 45°C, o loop da instalação pode dissipar calor em muitos climas sem chillers mecânicos e sem ventiladores barulhentos
  • Em regiões adequadas, a unidade de distribuição de refrigeração captura o calor na origem e o envia para dry coolers, grandes serpentinas radiadoras do lado de fora do prédio
    • O loop é preenchido uma única vez e depois opera em estado fechado durante toda a vida útil da instalação
    • O espaço ocupado dentro da fábrica de IA é muito menor do que na infraestrutura tradicional refrigerada a ar

Condições climáticas e aproveitamento do calor residual

  • A localização geográfica é uma restrição importante
    • Um data center nas Scottish Highlands e outro em Phoenix, Arizona, enfrentam realidades de refrigeração diferentes
  • Mesmo em climas quentes, o fluido a 45°C aproxima mais a operação sem chiller
    • O chiller pode ser acionado apenas nos dias em que a temperatura externa exigir
  • O novo modelo de fábrica de IA também oferece potencial de recuperação de calor residual
    • O calor excedente da operação da fábrica de IA pode ser reutilizado para aquecer edifícios comerciais ou residenciais próximos

Mudanças de engenharia para refrigeração totalmente líquida

  • Servidores anteriores com refrigeração líquida usavam uma estrutura híbrida
    • GPUs e CPUs usavam cold plates
    • O restante do sistema dependia de dissipadores com aletas e refrigeração a ar
  • Em servidores totalmente refrigerados a líquido, foi necessário redesenhar o método de refrigeração desses componentes com base líquida
  • A equipe de engenharia térmica da NVIDIA simplificou a forma de fornecer líquido a vários chips de alta potência
    • O líquido é roteado para vários chips da placa com uma única entrada e uma única saída
    • Isso resulta em uma arquitetura de refrigeração em nível de bandeja mais limpa
  • A aparência externa do servidor e a densidade de instalação também mudam
    • Os servidores Rubin têm painéis frontais limpos e vedados, em vez dos bezels perfurados dos servidores refrigerados a ar
    • Servidores totalmente refrigerados a líquido permitem maior densidade por rack do que servidores refrigerados a ar
    • Um sistema que antes ocupava 6U passa a caber em 2U, entregando mais computação com menos espaço e menos ruído

Expansão da infraestrutura de IA e eficiência de refrigeração

  • As cargas de trabalho de IA não estão ficando mais leves
  • A demanda computacional que impulsiona a construção de data centers está crescendo mais rápido do que quase todas as categorias de investimento em infraestrutura
  • Sem ganhos de eficiência na forma de resfriar a computação, o custo energético de grandes operações de IA cresce junto com o aumento do hardware
  • A refrigeração líquida em até 45°C se torna uma ferramenta para reduzir a diferença entre expansão de hardware e custo de refrigeração

1 comentários

 
GN⁺ 4 시간 전
Comentários do Hacker News
  • A condição de “regiões onde o ar externo é consistentemente frio” é justamente a armadilha
    Soa como “vamos construir datacenters em lugares frios para economizar recursos de resfriamento e jogar todo o calor residual no ambiente ao redor, poluindo-o”
    Quase achei que a Nvidia tinha criado algo realmente bom

    • Dá até para entender por que querem tanto a Groenlândia
      Temperaturas baixas, muito espaço vazio, poucos grandes problemas ambientais e, mesmo que existam, não há tantos cidadãos para protestar
      Se precisarem de mais água para resfriamento, provavelmente também haveria bastante disponível no gelo derretendo
    • No inverno, esse calor pareceria muito bem-vindo
      Aquecimento grátis não parece uma boa?
      O Linus também aquece a piscina com o calor excedente da CPU
      O ponto é não entrar em pânico e usar isso com inteligência, e como IA e datacenters vão continuar existindo, em vez de lutar contra isso dá para monetizar o calor residual
    • Não sei se o calor residual de datacenter é realmente um problema
      Só ouvi falar de calor residual de usinas nucleares sendo um problema quando a água de resfriamento é descartada diretamente em rios, e não no mar
    • Com a latência de LLM, acho que quase ninguém perceberia
    • Em países frios, água morna pode ser bem útil
      Por exemplo, para aquecimento residencial
  • Surge uma sinergia interessante: aquecimento distrital
    45°C é baixo, mas não baixo demais para uma rede de circulação de aquecimento distrital, e se o datacenter fornecesse calor de graça, poderia fazer uma proposta muito boa para a comunidade local
    O valor comunitário de um datacenter próximo poderia sair de quase zero para vários milhões de dólares por ano
    O verão ainda continua sendo um problema, mas pode haver soluções interessantes
    Se as condições geológicas forem adequadas, parece possível aquecer espaços subterrâneos no verão e depois recuperar parte desse calor no inverno
    Em muitas zonas climáticas, a menos que as pessoas usem claraboias de forma idiota, o custo anual de aquecimento é muito maior do que o de refrigeração [0]
    [0] Fazendo uma conta aproximada, as cargas de aquecimento e refrigeração por condução e troca de ar são proporcionais à diferença de temperatura entre interior e exterior
    Temperaturas externas de inverno entre -10°F e 30°F não são raras, o que dá uma diferença de 40°F a 80°F em relação aos 70°F internos
    Já no verão desses climas, temperaturas externas acima de 95°F são raras e normalmente menores, então a diferença para refrigeração fica na faixa de 15°F a 25°F
    Bombas de calor também ficam mais eficientes quanto menor for a diferença de temperatura
    Aquecimento por radiação é uma história completamente diferente

    • Na Finlandia, o calor de datacenters é elevado para 60~90°C e usado em aquecimento distrital
      Em construções novas, a tendência normal é usar bombas de calor [1]
      O datacenter de 75MW em Mäntsälä vem fornecendo, há 10 anos, 2/3 do aquecimento da cidade, o equivalente a 2.500 residências [2]
      1. https://www.creatingsustainablecities.org.uk/post/case-study...
      2. https://www.sustainabilitymenews.com/waste-management/how-fi...
    • A Microsoft já está construindo datacenters conectados ao aquecimento distrital em Espoo e Kirkkonummi, na Finlandia
      Bombas de calor são realmente incríveis
      Armazenamento sazonal de calor já é uma tecnologia em uso, e perto de Espoo há um reservatório de várias dezenas de GWh, além de um novo armazenamento em caverna de 90GWh em andamento
      Não sei se esses sistemas estão interligados
    • Nos Netherlands, a energia residual na forma de calor já é enviada para estufas e usada para aquecimento no inverno
      Também achei interessante o artigo dizer que esse problema de engenharia nunca tinha sido resolvido antes
      O Google foi pioneiro antes em rodar chips em temperaturas mais altas, e resfriamento a água já existia em PCs de consumidor há muito tempo
      Pelo menos há 30 anos
      O que parece novo é terem conectado todos os chips ao circuito de circulação, mas não consegui descobrir como lidaram com a PSU
    • Se 45°C for a temperatura do lado frio, então imagino que seria possível enviar água a uma temperatura mais alta para o trocador de calor do lado da comunidade
      E talvez ela volte já abaixo de 45°C
    • Isso já é usado no norte da Europa
      E provavelmente também em datacenters da maior parte do hemisfério norte onde há invernos frios
  • Posso ter deixado passar algo, mas não entendo bem qual é a inovação aqui
    Entendo que usam um líquido de arrefecimento em temperatura mais alta que o normal, mas não sei por que isso não podia ser feito antes
    As comparações do artigo são quase todas com datacenters resfriados a ar; como isso se compara a outros datacenters com resfriamento líquido?
    Em projetos anteriores de datacenters, alguém certamente já tinha calculado a temperatura de operação necessária, o consumo de energia, a quantidade de calor gerada etc.
    Edit: acabei de ver esta parte
    “Os servidores com resfriamento líquido existentes eram híbridos. GPUs e CPUs tinham cold plates acopladas, mas o restante do sistema continuava com resfriamento a ar, com dissipadores com aletas projetados para remover calor com ar em movimento. Em servidores totalmente resfriados a líquido, foi necessário redesenhar completamente o resfriamento desses componentes com base em líquido.”

    • A “inovação” é que agora todos os componentes estão ligados a blocos de resfriamento líquido
      O resto é mais marketing
      Os supercomputadores Cray já usavam resfriamento por fluido nos anos 1980, com líquido inerte passando por toda a placa
    • Por volta de 2011, pareceu uma mudança bem grande quando grandes empresas passaram a operar datacenters resfriados a ar em temperaturas mais próximas de 95°F (35°C) em vez dos tradicionais 72°F (22°C)
      Aumentar mais um pouco talvez não seja algo incrivelmente interessante, mas ainda pode ser considerado uma inovação
    • O hardware precisa ser projetado para operar continuamente em condições mais quentes
      Existe um equilíbrio entre custo de resfriamento e taxa de falhas/capex
    • É um palpite, mas talvez esta seja a primeira vez que CPUs e GPUs tenham sido resfriadas “de forma eficaz” dessa maneira em escala de datacenter
      Esses componentes podem facilmente ultrapassar 100°C, então manter um circuito de circulação estável a 55°C exige bastante coisa
      A inovação pode estar em quão rápido e em que volume o líquido de resfriamento é enviado às várias partes do datacenter para controlar a temperatura
      Claro, isso também inclui redesenhar todos os componentes para serem compatíveis com um projeto sem ventoinhas
      Parece algo que a Nvidia só conseguiu fazer porque hoje é muito mais verticalmente integrada do que antes
    • Nunca houve motivo para um sistema fechado de resfriamento líquido consumir quantidades enormes de água
      Mas a prática mais recente acabou se consolidando em usar e descartar água
      Datacenters parecem procurar cidades, condados ou estados onde possam operar como quiserem, como outras instalações industriais, e se acostumar com isso como se fosse a única forma possível
      Mesmo quando várias comunidades reagem e apontam danos ambientais, isso é ignorado; mas se vier como especificação técnica, talvez seja aceito
  • O texto diz “a arquitetura de resfriamento líquido a 45°C da Nvidia em climas favoráveis...”, e claro que eu queria saber o que seria um clima favorável além da Groenlândia
    O texto fala muito pouco sobre a relação entre temperatura externa e eficiência/custo
    Teria sido bom pelo menos uma explicação aproximada

    • A universidade na Alemanha em que estudei usa resfriamento em alta temperatura há alguns anos
      O clima alemão chega a temperaturas relativamente altas, mas, segundo o pessoal técnico, só é necessário resfriamento ativo, ou seja, tipo ar-condicionado, quando chega à faixa alta dos 30°C
      A tecnologia em si é bem interessante
      https://www.kit.edu/kit/english/pi_2024_038_kit-supercompute...
    • Sinceramente, isso é parte do problema
      Para garantir uma temperatura de saída da água de 45°C, o ar externo precisa estar em torno de 37°C ou menos
      Em grande parte dos lugares, ainda será preciso torre de resfriamento ou compressor durante parte do tempo, então toda essa infraestrutura continua tendo de ser construída
      Ainda assim, só de reduzir o uso já dá para economizar muita água ou energia
      Por exemplo, você pode achar que os arredores de London têm clima bem ameno, mas provavelmente já precisaram de resfriamento auxiliar só esta semana
      Nos datacenters daqui, os sistemas de resfriamento são projetados para suportar temperaturas externas acima de 40°C, e esse número já nem é mais uma hipótese conservadora
      Além disso, mesmo que a Nvidia esteja satisfeita com fornecimento de água a 45°C, é bem possível que o hardware dure mais com temperaturas menores, como 35°C
      GPUs são caras, e aumentar sua vida útil pode valer mais do que economizar um pouco de água ou energia
      Na prática, também é bem provável que ao lado dos equipamentos de computação de IA haja sistemas resfriados a ar, como servidores de armazenamento, equipamentos extras de computação com CPU e switches de rede
      Então talvez ainda seja necessário espaço separado e um sistema de resfriamento separado
      Ainda assim, é um grande avanço
  • Mesmo lendo isso, ainda não entendo por que isso seria um avanço decisivo
    Parece igual a um circuito fechado de resfriamento que já existe na maioria das aplicações comerciais e industriais de refrigeração
    O artigo diz que, em climas adequados, dá para colocar radiadores do lado de fora para dissipar o calor do circuito de água/glicol
    Então isso não significa que, fora do Ártico, ainda continua sendo necessário um circuito de condensação?
    O que estou deixando passar?

  • A Modular Supercomputing Facility do NASA Ames Research Center é muito eficiente em termos de uso de eletricidade e água
    Essa instalação não usa ar-condicionado
    Pelo que sei, os chips são resfriados a líquido, e a temperatura de entrada da água também é relativamente alta. Acho que algo em torno de 90°F
    https://www.nasa.gov/centers-and-facilities/ames/doing-more-...
    https://www.nas.nasa.gov/assets/nas/pdf/ModularSupercomputin...

    • Para quem usa unidades métricas/SI: 90°F são 32,22°C, 305,37 K
      Os militares dos EUA e a NASA não usam sistema métrico agora?
  • Para resumir para quem ficou decepcionado com um texto horrível escrito por IA, isto é uma história sobre um projeto de data center totalmente refrigerado a líquido
    A forma geral de resfriar servidores é como em desktops ou notebooks: colocar dissipadores de calor no hardware quente e resfriar com ar
    Quanto mais denso e poderoso o hardware fica, maiores precisam ser os dissipadores e mais frio precisa ser o ar
    Em algum momento, por limitações de espaço, não dá para aumentar mais os dissipadores, e por ruído e eficiência também não dá para soprar o ar mais rápido
    Aí passam a usar resfriadores que evaporam água para resfriar o ar de entrada
    É daí que vem o enorme consumo de água que queremos evitar
    O passo seguinte, naturalmente, é o resfriamento líquido
    Isso também é parecido com desktops gamers mais sofisticados
    No interior, onde o espaço é limitado, um pequeno trocador de calor transfere muito calor para um meio líquido, e no exterior, mesmo que a diferença de temperatura entre o fluido de resfriamento e o ar externo seja pequena, é possível descartar o calor com um trocador de calor enorme
    Este artigo trata de um sistema que faz resfriamento totalmente líquido de CPU, GPU, memória e até rede
    Essa é a parte realmente legal
    Além disso, essa solução é otimizada para operar o fluido de resfriamento em uma temperatura relativamente alta
    Isso limita o fluxo de calor do lado do hardware, mas permite operar o trocador de calor externo “a seco”, evitando desperdiçar o calor latente da água

  • Em comparação com vários outros usos, o consumo de água de data centers já era quase zero
    Sempre me deprime ver tanto esforço e tanta divulgação para “resolver um problema” que, no fundo, já era mais uma questão de PR ou de imagem

    • Você sabe que a expressão vaga “em comparação com vários outros usos” enfraquece completamente o que você quer dizer
  • Por que justamente 45°C, e por que resfriamento a líquido
    Parece uma escolha estranha projetar tudo para temperatura ambiente ou ar levemente frio
    Já está em algo como 290K~300K, então a ideia agora não é que funcione bem também em 320K ou 330K
    Fiquei me perguntando por que não projetar simplesmente para operar perto de 200°C e usar resfriamento livre empurrando o ar ambiente
    Por que os data centers não parecem galinheiros
    Alguma coisa derrete
    Há mais erros de outro tipo em altas temperaturas

    • Materiais semicondutores têm um band gap relativamente pequeno
      São materiais que podem passar de isolantes a condutores com muito pouca energia adicional
      Em contraste, bons isolantes queimam ou viram plasma antes de começar a conduzir
      No fim, energia é energia, então se o calor ambiente for suficientemente alto, o band gap pequeno permite empurrar elétrons para orbitais mais altos
      Isso já acontece em temperaturas ambiente normais, mas os elétrons não vão muito longe e não são muitos
      A 200°C, um gate fechado não consegue impedir suficientemente o movimento dos elétrons
      Essa é a explicação técnica simplificada; há um vídeo do Project in Flight no YouTube que explica bem como semicondutores funcionam
    • Fazer esses chips operarem a 200°C é muito difícil
      As propriedades elétricas dos semicondutores mudam bastante com a temperatura
      Provavelmente seriam necessários chips completamente diferentes e um processo de fabricação completamente diferente