Pe măsură ce performanța CPU-urilor și GPU-urilor continuă să crească, căldura generată de acestea continuă să crească și ea. În timp ce raportul operațiilor pe secundă efectuate pentru fiecare watt crește, de asemenea, crește densitatea acestor noi generații de servere care conțin mai multe procesoare și noi generații de GPU-uri. Răcirea cu aer, metodă prin care se aduce un curent de aer mai rece peste procesoarele fierbinți, se bazează pe temperatura aerului de intrare și pe cantitatea de aer trecută peste cipuri. Pentru a menține CPU-urile în parametri, temperatura de intrare și capacitatea ventilatoarelor de a deplasa aerul (CFM) sunt elemente esențiale pentru menținerea unui server care rulează la frecvențele dorite. Răcirea cu aer necesită o utilizare ridicată a energiei, aer condiționat în sala unde se află sistemele, precum și ventilatoare de server care funcționează constant. Pentru a reduce OPEX, răcirea cu lichid este o alternativă viabilă la CRAC (computer room air conditioning) și va deveni mai răspândită în viitor, deoarece procesoarele vor genera mai multă căldură cu fiecare nouă generație.

Provocări în procesul de răcire a serverelor

Cele mai puternice procesoare utilizate astăzi în servere sunt proiectate cu o putere de proiectare termică maximă de 270 până la 280 de wați. GPU-urile recente pot rula la 500 de wați. Astfel, un sistem de 2 CPU, 8 GPU necesită o capacitate de răcire de aproximativ 4 până la 5 kilowați doar pentru procesoare și GPU-uri. Producătorii de CPU vor specifica cât de mult aer, măsurat în metri cubi pe minut, este necesar pentru a răci un procesor de putere dat (similar pentru GPU-uri).

De ce răcirea cu lichid?

Astăzi, multe servere consumă mai mult de 1 kW pentru a alimenta procesoarele, GPU-urile, memoria și orice alt hardware instalat într-un singur șasiu. Înmulțind această cantitate de energie necesară pentru un rack complet este ușor de estimat câtă energie consumă un centru de date și trebuie să furnizeze tehnologia de răcire. În mod tradițional, deplasarea unei cantități de aer peste un procesor ar fi suficientă pentru răcirea microprocesorului. Capacitatea de răcire este dependentă de temperatura de intrare (cu cât este mai mică, cu atât este mai bună) și de puterea ventilatoarelor de a muta acest aer rece, care preia căldura de la procesoare, GPU-uri, memorie etc. Există o limită pentru cât de mare poate fi un ventilator în interiorul unui șasiu, care se măsoară în numărul de „U” (1 U = 1,75 inci) pe care este conceput serverul. Pot fi instalate mai multe ventilatoare într-un server pentru a crește fluxul de aer peste diferite zone din server.

Lichidul este semnificativ mai bun la eliminarea căldurii decât aerul. Această capacitate de răcire a lichidului nu este doar un pic mai bună, ci de câteva ordine de mărime mai bună. Moleculele unui lichid sunt mai apropiate între ele decât moleculele de aer, rezultând un transfer de căldură mai mare.

Avantajele răcirii cu lichid

Soluțiile de răcire ale centrelor de date sunt necesare pentru a menține condițiile optime de operare pentru o funcționare eficientă și eficientă a centrelor de date. Deoarece AI și big data necesită volume masive de prelucrare a datelor, căldura este un produs secundar al puterii ridicate de procesare. Unele dintre beneficiile trecerii la o soluție de răcire cu lichid sunt:

1. Trecerea de la aerul condiționat la o răcire cu lichid mai eficientă reduce OPEX cu mai mult de 40%

  • O trecere de la aparatele de aer condiționat la tehnologia de răcire cu lichid economisește energie
  • Se economisește energie suplimentară prin reducerea funcționării ventilatorului sistemului
  • Rambursarea medie de 1 an a investiției crește rentabilitatea acesteia

2. Eficiența răcirii cu lichid îmbunătățește dramatic PUE-ul centrelor de date cu CPU și GPU-uri de înaltă performanță și de mare putere

  • Lichidul este fundamental mai eficient la eliminarea căldurii cu până la 1000X
  • Viitoarele generații de procesoare și GPU pot necesita răcirea cu lichid, deoarece capacitatea de răcire a aerului este depășită
  • Pot fi suportate servere de înaltă performanță și de mari densități, crescând capacitatea de calcul pe metrul pătrat.

3. Reduce costurile și impactul asupra mediului

  • Răcirea cu lichid reduce consumul de energie și reduce emisiile de carbon de la centralele electrice cu combustibil fosil. Reducerea impactului de mediu al centrelor de date actuale devine o responsabilitate corporativă.
  • Jitter – Atunci când CPU-urile sau GPU-urile se supraîncălzesc sau se apropie de temperatura lor maximă de funcționare, CPU-ul va restrânge performanța pentru a evita deteriorarea cipului. Reglarea termică va reduce performanțele sistemului, rezultând un debit mai mic de aplicare. Limitarea procesorului poate lua forma reducerii ratei de ceas sau oprirea unora dintre nuclee.

Ce sistem de răcire este potrivit pentru nevoi specifice de răcire?

O serie de decizii ar trebui înțelese înainte de a alege o opțiune specifică de soluție de răcire cu lichid pentru un centru de date.

1. Care este cantitatea de căldură care trebuie eliminată dintr-un sistem și un rack atunci când funcționează la viteză maximă?

a. Workload-urile anticipate vor necesita ca procesoarele să ruleze la capacitate maximă pentru o perioadă de timp susținută?

b. Serverele care sunt utilizate necesită mai multă răcire decât este disponibil în centrul de date?

c. Există un buget pentru o investiție care ar putea fi necesar pentru a construi o infrastructură de răcire?

2. Care este cantitatea de căldură (în kW) care trebuie eliminată din întregul rack?

a. Dacă acest lucru este de până la 20-25 kW, atunci fluxul de aer ar trebui să fie suficient

b. Dacă acesta este între 20 kW și 40-45 kW, atunci D2C este o opțiune excelentă

c. Dacă aceasta depășește 40 kW sau centrul de date se află într-un spațiu limitat (< 10 m X 10 m X 10 m), atunci ar trebui să se utilizeze răcirea prin imersiune

3. Există infrastructură disponibilă pentru răcirea cu lichid pentru mai multe rack-uri?

O altă modalitate de a privi răcirea lichidului este de a lua în considerare opțiunile pentru o gamă de disipare a căldurii necesare în funcție de kW pe rack.

Reducerea PUE poate fi diferită pentru diferitele sisteme de răcire. Eficacitatea utilizării energiei (Power Usage Effectiveness – PUE) este o definiție standard a eficienței energetice a unui centru de date. PUE se măsoară ca raportul dintre cantitatea de energie electrică necesară pentru a funcționa serverele, dispozitivele de stocare, elementele de rețea și cantitatea totală de energie electrică pentru centrul de date. Cu cât acest raport este mai aproape de 1.0, cu atât este mai eficient centrul de date, deoarece un procent mai mare de energie electrică este utilizat pentru servere, stocare și infrastructura de rețea. Un centru de date foarte eficient este măsurat la aproximativ 1,10, iar centrele de date mai vechi sau mai neglijent proiectate se situează în jurul a 2.0. Diferitele opțiuni de răcire pot reduce PUE-ul unui centru de date mai aproape de 1.0. Desigur, fiecare PUE real al centrului de date ar trebui să fie măsurat, dar estimările sunt că un RDHx ar putea aduce PUE-ul centrului de date în intervalul 1,2-1,3 și răcirea prin imersiune în intervalul 1,02-1,03.

Sisteme Supermicro cu răcire lichidă

Supermicro, lider global în tehnologie și inovație a serverelor de înaltă performanță și eficiență ridicată, dezvoltă și oferă soluții end-to-end de green computing pentru centrele de date. Compania oferă o gamă de sisteme care beneficiază de răcire cu lichid. Aceasta include:

Ultra – Superserverele Supermicro Ultra sunt concepute pentru a oferi cea mai înaltă performanță, flexibilitate, scalabilitate și funcționalitate în medii IT solicitante. Sistemele 1U și 2U Ultra acceptă procesoare duale Intel® Xeon® scalabile de a 3-a generație sau procesoare AMD EPYC™ de a 3-a generație, până la 32 DIMM de memorie DDR4 și diverse opțiuni Ultra Riser încorporate Ethernet 1G, 10G și 25G. Sunt acceptate mai multe configurații de stocare NVMe de înaltă performanță și opțiuni pentru compartimentele de unități NVMe SAS/SATA și hibride. Un cooler D2C este montat pe fiecare dintre procesoarele din sistemul Ultra și este direcționat printr-o buclă CDM către CDU de răcire cu lichid.

BigTwin® – Supermicro BigTwin reprezintă performanțe emblematice pentru cele mai solicitante aplicații și medii HCI. Designul inovator acceptă până la patru noduri într-o carcasă 2U cu suport pentru procesoare, memorie și I/O. Fiecare nod poate accepta procesoare duale Intel® Xeon® de generația a treia scalabile, până la 20 DIMM-uri de memorie DDR4/PMEM și până la șase unități NVMe de mare viteză. Opțiunile de rețea AIOM (superset OCP 3.0) includ 10GbE, 25GbE, 100GbE și InfiniBand (200 Gb HDR per port). Puterea partajată și răcirea maximizează economiile de resurse ale designului multi-nod. Cooler-ele D2C sunt montate pe procesoare în cadrul fiecărui nod BigTwin și direcționate printr-o buclă CDM către CDU de răcire cu lichid.

SuperBlade® – O infrastructură comună de răcire, alimentare și rețea este cheia densității ridicate și a eficienței serverului oferite de SuperBlade. SuperBlade de înaltă performanță, densitate optimizată și eficientă din punct de vedere energetic acceptă până la 20 de servere blade într-un șasiu 8U, cu o gamă de procesoare scalabile Intel® Xeon® de a 3-a generație sau procesoare AMD EPYC™ de a 3-a generație. Cu opțiuni avansate de rețea, inclusiv 200G HDR InfiniBand, portofoliul de produse blade de nouă generație al Supermicro a fost conceput pentru a optimiza TCO-ul centrelor de date actuale. Un cooler D2C este montat pe fiecare dintre procesoarele din sistemul SuperBlade și este direcționat printr-o buclă CDM către CDU Liquid Cooling.

GPU-uri – Sistemele GPU Supermicro se află pe valul de entuziasm generat astăzi de AI și HPC, combinând cele mai rapide procesoare, memorie și GPU-uri într-o familie de sisteme pentru AI/ML și HPC. Sistemele GPU 2U sau 4U acceptă 4 sau 8 GPU-uri NVIDIA® A100 împreună cu NVLink® și respectiv NVSwitch și sunt propulsate de procesoare scalabile Intel® Xeon® de generația a treia sau procesoare AMD EPYC ™ 7003/7002. Pot fi instalate până la 32 de DIMM-uri de memorie DDR4, oferind un sistem AI sau HPC extrem de compact și puternic. Răcitoarele D2C sunt montate pe fiecare dintre procesoare și GPU-uri din cadrul sistemului GPU și sunt direcționate prin bucle CDM către CDU Liquid Cooling.

Tehnologia viitorului

Răcirea cu lichid devine o tehnologie critică care va fi necesară pe măsură ce procesoarele și GPU-urile rulează mai rapid și la temperaturi mai ridicate. Eliminarea căldurii generate de cele mai noi generații de procesoare și GPU-uri reduce jitterul și OPEX-ul pentru operatorii centrelor de date. Deși există o investiție inițială, economiile pe durata de viață a unui server sau a unui sistem de stocare vor depăși costurile inițiale. Se așteaptă ca procesoarele de generație următoare să consume și mai multă energie și să producă mai multă căldură decât procesoarele de ultimă generație de astăzi, pe măsură ce HPC și AI devin din ce în ce mai prezente în mediile de lucru corporative.

Pentru mai multe informații, vizitați: www.supermicro.com/liquidcooling