Începând cu trimestrul al treilea din 2026, Oracle va deveni primul hyperscaler care va pune la dispoziția publicului un supercluster AI, alimentat de 50.000 de procesoare grafice din seria AMD Instinct MI450

Oracle și AMD au anunțat extinderea semnificativă a parteneriatului lor de lungă durată, consolidat de-a lungul mai multor generații de tehnologii, cu scopul de a sprijini clienții în dezvoltarea și scalarea accelerată a inițiativelor bazate pe inteligență artificială (AI).

Pe baza unei colaborări îndelungate și a numeroaselor inovații comune, Oracle Cloud Infrastructure (OCI) va fi partenerul de lansare pentru primul supercluster AI disponibil public, alimentat de plăci video din seria AMD Instinct™ MI450 Implementarea inițială va cuprinde 50.000 de plăci video, cu lansarea programată pentru trimestrul al treilea din 2026 și extinderi planificate în 2027 și în anii următori.

Această inițiativă continuă eforturile comune ale companiilor Oracle și AMD de a livra platforme GPU AMD Instinct prin OCI către clienții finali, începând cu lansarea formelor de calcul bazate pe AMD Instinct MI300X în 2024 și continuând cu disponibilitatea generală a serviciului OCI Compute cu GPU-uri AMD Instinct MI355X. Acestea vor fi integrate în superclusterul OCI de nivel zettascale.

Cererea pentru capacitate AI la scară largă crește rapid, pe măsură ce modelele de generație nouă depășesc limitele clusterelor AI existente. Pentru a putea antrena și rula aceste sarcini complexe, clienții au nevoie de soluții de calcul deschise, flexibile și optimizate pentru eficiență și scalabilitate extremă.

Noile superclustere AI planificate de OCI vor fi construite pe baza arhitecturii „Helios” dezvoltate de AMD, care includ GPU-uri din seria AMD Instinct MI450, procesoare AMD EPYC™ de generație viitoare cu numele de cod „Venice” și soluții avansate de rețelistică AMD Pensando™, cu numele de cod „Vulcano”. Această arhitectură optimizată vertical, la nivel de rack, este concepută pentru a oferi performanță maximă, scalabilitate și eficiență energetică în procesele de antrenare și inferență AI la scară largă.

„Clienții noștri dezvoltă unele dintre cele mai ambițioase aplicații AI din lume, iar pentru asta au nevoie de o infrastructură solidă, scalabilă și extrem de performantă,” a declarat Mahesh Thiagarajan, vicepreședinte executiv al companiei Oracle Cloud Infrastructure. „Prin integrarea celor mai recente inovații AMD în materie de procesoare cu platforma sigură și flexibilă OCI, precum și cu rețeaua avansată Oracle Acceleron, le oferim clienților încrederea de a inova fără limite. Colaborarea noastră de peste zece ani cu AMD, de la procesoarele EPYC la acceleratoarele AMD Instinct, ne permite să oferim în continuare cea mai bună performanță raportată la cost, într-un mediu cloud deschis, sigur și scalabil, adaptat cerințelor noii ere AI.”

„AMD și Oracle continuă să conducă ritmul inovației AI în cloud,” a declarat Forrest Norrod, vicepreședinte executiv și director general al diviziei Data Center Solutions din cadrul AMD. „Cu GPU-urile AMD Instinct, procesoarele EPYC și soluțiile avansate de rețelistică AMD Pensando, clienții Oracle beneficiază de capabilități puternice pentru antrenarea, ajustarea și implementarea modelelor AI de ultimă generație. Împreună, AMD și Oracle accelerează evoluția AI prin sisteme deschise, optimizate și sigure, concepute special pentru centre de date AI de mari dimensiuni.”

GPU-urile AMD Instinct MI450 ajung pe Oracle Cloud Infrastructure (OCI)

Oracle anunță integrarea GPU-urilor din seria AMD Instinct MI450 în platforma OCI. Clienții vor beneficia de performanță de top, flexibilitate în implementarea în cloud și suport extins pentru ecosistemul open-source. Aceste soluții reprezintă o bază ideală pentru rularea celor mai avansate modele de limbaj, aplicații de AI generativ și sarcini de calcul de înaltă performanță.

Prin această integrare, clienții OCI vor beneficia de:

  • Putere de calcul și memorie revoluționară
    Fiecare GPU MI450 oferă până la 432 GB de memorie HBM4 și 20 TB/s lățime de bandă. Această capacitate permite antrenarea și inferența unor modele cu 50% mai mari decât cele din generațiile anterioare, direct în memorie. Rezultatul: timpi de execuție mai rapizi, sarcini mai complexe și mai puțină nevoie de împărțire a modelelor.
  • Rack-uri optimizate „Helios” de la AMD
    Designul „Helios” permite operarea la scară largă, cu 72 de GPU-uri răcite cu lichid per rack. Această arhitectură optimizează densitatea de performanță, costurile și eficiența energetică. Conectivitatea UALoE și rețeaua scalabilă Ethernet, aliniată cu standardele UEC, asigură latență minimă și transfer maxim între poduri și rack-uri.
  • Nod principal de înaltă performanță
    Bazat pe procesoare AMD EPYC de generație viitoare (cod „Venice”), acest nod accelerează orchestrarea sarcinilor și procesarea datelor la scară largă. Include capabilități de calcul confidențial și funcții de securitate integrate, esențiale pentru protejarea sarcinilor AI sensibile.
  • Rețelistică convergentă accelerată de DPU
    Tehnologia AMD Pensando DPU, complet programabilă, permite ingestia de date la viteze liniare și crește performanța și securitatea infrastructurilor AI și cloud de mari dimensiuni.
  • Rețelistică scalabilă pentru AI
    Fiecare GPU poate fi echipat cu până la 3 plăci AI-NIC „Vulcano” de 800 Gbps, oferind conectivitate programabilă, fără pierderi, compatibilă cu standardele RoCE și UEC. Ideal pentru antrenare distribuită și comunicare colectivă optimizată.
  • Infrastructură inovatoare UALink și UALoE
    Permite extinderea eficientă a sarcinilor, reducerea blocajelor de memorie și orchestrarea modelelor AI cu trilioane de parametri. Protocolul UALink, transportat prin UALoE, oferă rețelistică coerentă și partajare directă a memoriei între GPU-uri, fără a trece prin CPU-uri. Este un standard deschis, susținut de un ecosistem larg din industrie.
  • Stack software open-source AMD ROCm™
    Oferă un mediu de programare deschis și flexibil, compatibil cu framework-uri populare, biblioteci, compilatoare și runtime-uri. Simplifică migrarea sarcinilor AI și HPC și oferă libertate în alegerea furnizorului.
  • Partajare și virtualizare avansată
    Permite alocarea eficientă și sigură a resurselor prin partitionare fină a GPU-urilor și podurilor, virtualizare SR-IOV și suport robust pentru multi-tenancy.

Pentru și mai multă flexibilitate, Oracle a anunțat disponibilitatea generală a serviciului OCI Compute cu GPU-uri AMD Instinct MI355X, în cadrul superclusterului OCI de nivel zettascale, care poate scala până la 131.072 GPU-uri. Formele de calcul MI355X sunt optimizate pentru valoare superioară, flexibilitate în cloud și compatibilitate cu ecosistemul open-source. Află mai multe aici și aici.