De la clustere de instruire până la servere de inferență edge, AI acoperă un procent din ce în ce mai mare din încărcăturile de lucru ale centrelor de date. Această tendință reprezintă și o trecere la densități mai mari de putere în rack. Start-up-urile AI, companiile, furnizorii de servicii de colocare și giganții.
internetului trebuie acum să ia în considerare impactul acestor densități asupra designului și gestionării infrastructurii fizice a centrelor de date. Despre aceste subiecte am avut recent plăcerea să discutăm cu Traian Petric, director de vânzări pentru România şi Republica Moldova, APC by Schneider Electric.
IT Channel: Cum influențează noua proliferare a inteligenței artificiale activitatea dumneavoastră de business?
Traian Petric: În ultimii ani, am asistat la o accelerare extraordinară a creșterii inteligenței artificiale (AI), transformând modul în care trăim, lucrăm și interacționăm cu tehnologia.
AI generativă (ChatGPT, de exemplu) este un catalizator pentru această creștere.
Algoritmii predictivi influențează multe sectoare economice, de la sănătate și finanțe până la producție, transport și divertisment. Cerințele de date asociate cu inteligența artificială conduc la noi tehnologii de cip și de servere, care au ca rezultat densități extreme de putere a rack-urilor. În același timp, există o cerere masivă pentru AI.
IT Channel: Cât de mult credeți că va crește cererea de putere AI în următorii ani?
Traian Petric: Estimăm că AI reprezintă 4,3 GW de cerere de energie în prezent și previziunile noastre arată că această cerere va crește anual cu 26% până la 36%, rezultând o valoare totală de 13,5 GW până la 20 GW până în 2028. Această creștere va fi de două până la trei ori mai mare decât cea generală pentru centre de date, care este de numai 11%.
IT Channel: Cum vom susține această cerere în creștere cu tehnologia hardware existentă?
Traian Petric: Încărcările vor crește în timp, pe măsură ce mai multe modele nou antrenate trec la stadiul de producție. Cererea reală de energie va depinde în mare măsură de factori tehnologici, inclusiv de generațiile succesive de servere, seturi de instrucțiuni mai eficiente, performanță îmbunătățită a cipurilor și cercetarea continuă în AI.
Patru atribute și tendințe AI stau la baza provocărilor infrastructurii fizice: încărcăturile de lucru AI, puterea de proiectare termică (TDP) a GPU-urilor, latența rețelei și dimensiunea clusterului AI. Sarcinile de lucru AI se împart în două categorii generale: instruire și inferență. Sarcinile de
lucru de instruire sunt folosite pentru a antrena modelele AI, cum ar fi modelele de limbaj de mari dimensiuni (Large Language Models – LLM). Tipul de sarcină de lucru la care ne referim este instruirea distribuită pe scară largă (număr mare de mașini care rulează în paralel), din cauza provocărilor pe care aceasta le aduce centrelor de date în prezent. Aceste sarcini de lucru necesită cantități masive de date alimentate către servere specializate, cu procesoare cunoscute sub numele de acceleratoare. O unitate de procesare grafică (GPU) este un exemplu de asemenea accelerator. Acceleratoarele sunt foarte eficiente în îndeplinirea sarcinilor de procesare paralelă, cum ar fi cele utilizate în formarea LLM-urilor.
Pe lângă servere, instruirea necesită și stocarea datelor și o rețea pentru a le conecta pe toate împreună. Aceste elemente sunt asamblate într-o serie de rafturi cunoscute sub numele de cluster AI care antrenează, în esență, un model ca un singur computer. Acceleratoarele dintr-un cluster AI bine conceput funcționează la o utilizare aproape
de 100% pentru cea mai mare parte a duratei de antrenament, durată care variază de la ore la luni. Aceasta înseamnă că consumul mediu de putere al unui cluster de antrenament este aproape egal cu consumul de putere maxim. Cu cât modelul este mai mare, cu atât sunt necesare mai multe acceleratoare.
Densitățile rack-urilor din clusterele mari AI pot varia de la 30 kW la 100 kW, în funcție de modelul și cantitatea de GPU-uri. Clusterele pot varia de la câteva rafturi la sute de rafturi și sunt descrise în mod obișnuit în funcție de cantitatea de acceleratoare utilizate. De exemplu, un cluster de 22.000 GPU H100 utilizează aproximativ 700 de rack-uri și necesită aproximativ 31 MW pentru alimentare, cu o densitate medie a rack-urilor de 44 kW. Rețineți că această putere exclude cerințele de infrastructură fizică, cum ar fi răcirea.
În cele din urmă, sarcinile de lucru salvează modelul în anumite momente, numite „puncte de control” (checkpoints). Dacă clusterul se defectează sau își pierde puterea, această acțiune garantează că activitatea poate continua de unde a rămas. Inferența înseamnă că modelul antrenat anterior este pus în producție pentru a prezice rezultatul noilor interogări. Din perspectiva utilizatorului, există un compromis între acuratețea unei ieșiri și timpul de inferență, ceea ce
reprezintă latența sistemului.
Dacă sunt om de știință, s-ar putea să fiu dispus să plătesc în plus și să aștept mai mult între interogări pentru a obține rezultate foarte precise. Pe de altă parte, dacă sunt copywriter și sunt în căutare de idei, vreau un chatbot gratuit cu răspunsuri instantanee. Pe scurt, nevoia de afaceri determină dimensiunea modelului de inferență, dar foarte rar este utilizat modelul original antrenat complet. În schimb, o versiune mai simplă a modelului este implementată pentru a reduce timpul de inferență cu o pierdere acceptabilă de precizie.
Sarcinile de lucru de inferență tind să folosească acceleratoare pentru modele mari și pot depinde, de asemenea, în mare măsură de procesoare, în funcție de aplicație. Aplicațiile precum vehiculele autonome, motoarele de recomandare și ChatGPT au stack-uri IT diferite, „adaptate” la cerințele lor. În funcție de dimensiunea modelului, cerințele hardware per instanță pot varia de la un dispozitiv de vârf (de exemplu, un telefon inteligent) la mai multe rafturi de servere. Aceasta înseamnă că densitățile rack-urilor pot varia de la câteva
sute de wați până la peste 10 kW. Spre deosebire de antrenament, numărul de servere de inferență crește odată cu numărul de utilizatori/interogări. De fapt, este probabil ca un model popular (de exemplu, ChatGPT) să necesite de mult mai multe ori mai multe rafturi de cantitate pentru inferență decât pentru antrenament, deoarece interogările lor sunt acum de ordinul milioanelor pe zi. În cele din urmă, sarcinile de lucru de inferență sunt adesea critice pentru afaceri, ceea ce necesită reziliență (de exemplu, un UPS și/sau redundanță geografică).
În timp ce antrenarea sau inferența sunt imposibile fără stocare și rețea, ne referim la GPU, deoarece acestea reprezintă aproximativ jumătate din consumul de energie al unui cluster AI. Puterea GPU-ului e în continuă creștere, cu fiecare nouă generație. Consumul de energie al unui cip, măsurat în wați, este de obicei specificat cu TDP. În timp ce discutăm în mod specific despre GPU, această tendință generală de creștere a TDP se aplică și altor acceleratoare. Creșterea TDP-ului per generație de GPU este o consecință a proiectării GPU-ului pentru un număr crescut de operațiuni, pentru a antrena modele și a deduce în mai puțin timp și cu costuri mai mici. Dacă un server AI are opt GPU-uri, acel server va necesita opt porturi de rețea de calcul. Această modalitate de calcul permite tuturor GPU-urilor dintr-un cluster mare AI să comunice concertat la viteze mari (de exemplu, 800 gigabit/secundă). Pe măsură ce vitezele de procesare GPU cresc, la fel și vitezele rețelei, într-un efort de a reduce timpul și costul modelelor de antrenament.
Antrenarea modelelor mari poate necesita mii de GPU-uri care acționează în comun. Având în vedere că GPU-ul reprezintă aproximativ jumătate din consumul de energie al unui cluster, numărul GPU-urilor devine un indicator util pentru estimarea consumului de energie al centrului de date.
Cele patru atribute și tendințe descrise au un impact direct asupra densității puterii rack-urilor. Majoritatea centrelor de date de astăzi pot suporta densități maxime de putere a rackului de 10 până la 20 kW. Cu toate acestea, implementarea a zeci sau sute de rafturi mai mari de 20 kW într-un cluster AI va prezenta provocări de infrastructură fizică pentru operatorii centrelor de date. Acestea pot fi specifice puterii sau pot atinge două sau mai multe categorii de infrastructură fizică. Aceste provocări nu sunt de netrecut, dar operatorii trebuie să treacă la implementare cu o înțelegere completă a tuturor cerințelor, nu numai în ceea ce privește IT, ci și infrastructura
fizică, în special pentru facilitățile existente ale centrelor de date. Cu cât instalația este mai veche, cu atât va fi mai dificil să susțină sarcinile de lucru de instruire AI.
IT Channel: Care sunt soluțiile pe care le prevedeți, care vor fi noile tehnologii?
Traian Petric: Utilizarea rețelei electrice de 120/208 V (în NAM) nu mai este suficientă, în schimb, este recomandată rețeaua electrică de 240/415 V pentru a limita numărul de circuite din rafturile de înaltă densitate. Chiar și la o tensiune mai mare, este încă o provocare să oferi o capacitate suficientă cu PDU-uri rack standard de 60/63 amperi. De exemplu, rafturile răcite cu lichid sunt limitate la două rPDU-uri, oferind 69/87 kW. Pentru siguranța personalului, recomandăm o evaluare a riscului de arc electric și o analiză a sarcinii pentru a ne asigura că sunt utilizați conectorii, receptoarele și rPDU-urile adecvate în funcție de temperaturile de lucru. Dimensiunile blocurilor de distribuție din amonte trebuie să fie suficient de mari pentru a suporta un singur rând al unui cluster AI.
Deși răcirea cu aer va exista în continuare, în viitorul apropiat preconizăm o tranziție de la răcirea cu aer la răcirea cu lichid ca soluție preferată sau necesară pentru centrele de date cu clustere AI. În comparație cu răcirea cu aer, răcirea cu lichid oferă multe beneficii, cum ar fi fiabilitate și performanță îmbunătățite a procesorului, economii de spațiu cu densități mai mari ale rack-urilor, mai multă inerție termică cu apă în conducte, eficiență energetică crescută, utilizare îmbunătățită a energiei (mai multă putere merge către IT) și reducerea utilizarea apei. Operatorii centrelor de date pot folosi îndrumările noastre propuse pentru a realiza o tranziție cu succes de la răcirea cu aer la răcirea lichidă pentru a susține sarcinile de lucru AI.
Cu clusterele AI, serverele sunt mai adânci, cerințele de energie sunt mai mari și răcirea este mai complexă. Ca urmare, vă recomandăm să folosiți rafturi cu dimensiuni și capacitate de greutate mai mari, în special: cel puțin 750 mm (29,5 inchi) lățime, 1.200 mm (47,2 inchi) adâncime, 48U înălțime, cu adâncimi de montare de 1.000 mm (40 inchi), greutate statică capacitate mai mare de 1.800 kg (3.968 lb) și o capacitate de greutate dinamică mai mare de 1.200 kg (2.646 lb).
Nu în ultimul rând, atunci când gestionați clustere AI, instrumentele software precum DCIM, EPMS, BMS și instrumentele de proiectare electrică digitală devin critice. Acestea scad riscul unui comportament neașteptat în cazul rețelelor electrice complexe. Ele oferă, de asemenea, un geamăn digital al centrului de date pentru a identifica resursele limitate de energie și răcire pentru a informa deciziile de aspect