Kadangkala perubahan berlaku dengan begitu pantas sehingga sukar untuk diikuti, kita mesti membuat konsesi atau menghadapi halangan yang sukar. GPU menetapkan rentak, apabila AI mula mengambil alih dunia, tetapi pusat data bergelut – ada yang tidak dapat memenuhi permintaan masa ke pasaran, manakala yang lain membayar harga yang tinggi.
Perbezaan yang ketara dalam pembinaan infrastruktur AI dapat dilihat jika kita imbas kembali beberapa tahun, atau bahkan membandingkannya dengan beban HPC standard hari ini. Walaupun dengan kuasa mereka, persediaan 20 hingga 30 kW yang tipikal tidak lagi mencukupi untuk menyokong beban kerja AI.
Mengapa pusat data hari ini mencapai hadnya
Dengan B200s popular terkini, siri GB, menggunakan 100–130 kW setiap rak, dunia berlumba-lumba untuk memenuhi penanda aras baharu: 600 kW Rubin Ultra. Kita kini melihat julat beban 20 kW hingga 600 kW setiap meter persegi – pada asasnya memampatkan pusat data 15 hingga 20 MW ke dalam hanya 1,000 meter persegi ruang putih.
Dari sudut pandangan hartanah atau alam sekitar, ini mungkin kelihatan seperti perubahan positif. Tetapi ia membawa cabaran kejuruteraan dan operasi yang serius – yang membuatkan pasukan operasi dan projek berjaga malam. Berikut adalah beberapa cabarannya.
-
Ketegangan beban atau kebocoran:
Ketegangan beban yang disyorkan untuk rak 100 kW ialah dua hingga tiga ratus kilo setiap meter persegi. Ini bermakna sukar untuk mereka bentuk riser yang boleh menyokong berat sedemikian. Akibatnya, paip penyejuk selalunya dipasang di atas lantai atau di atas rak sebagai penyelesaian. Tetapi ini bukanlah penyelesaian jangka panjang yang boleh disesuaikan. Menyelesaikan satu masalah cenderung untuk mewujudkan masalah lain, dan mengekalkan masa operasi pusat data menjadi cabaran sebenar.
-
Pengembangan pusat data:
Apabila infrastruktur menjadi lebih padat, pusat data yang besar tidak lagi dapat menggunakan tanah sepenuhnya. Seseorang mungkin menganggap ini bermakna kepadatan penggunaan yang lebih tinggi dalam jejak yang lebih kecil – tetapi itu tidak berlaku. Peraturan kerajaan dan had kejuruteraan elektrik mengehadkan jumlah kuasa yang boleh dihantar ke satu tapak. Pada pandangan saya, “Keberkesanan Penggunaan Tanah” pusat data semakin merosot dari hari ke hari.
-
Perancangan projek:
Pusat data kini memerlukan infrastruktur mekanikal dan awam yang kukuh yang mampu menyokong sebarang penyelesaian. Walau bagaimanapun, mereka bentuk untuk pelbagai beban kapasiti bukanlah ideal dari segi ekonomi. Belanjawan meningkat dengan ketara, dan ROI menjadi dipersoalkan, terutamanya apabila penggunaan kapasiti rendah menduduki ruang spesifikasi tinggi yang sama.
-
Keusangan perkakasan:
Perkakasan lapuk menjadikan perancangan projek lebih sukar. Dengan sistem yang hanya bertahan selama dua hingga tiga tahun, pusat data sudah pun bergelut dengan isu-isu yang lebih awal. Lebih teruk lagi, sistem yang akan datang tidak serasi dengan yang lama, tanpa meninggalkan ruang untuk penggunaan semula atau penyesuaian.
Memikirkan semula tindanan pusat data
Memandangkan semua cabaran ini, tiba masanya untuk memikirkan semula dan menyusun semula empat tonggak utama pusat data tipikal:
-
Telekomunikasi:
Rangkaian pusat data masa depan akan menjadi sangat padat. Setiap NVIDIA SuperPod mungkin memerlukan 22 km optik. Jangkakan kereta sisi sebesar satu rak dan sehingga 5,000 kabel pada papan Rubin dengan PCB 72 lapisan. Adakah Bilik Pertemuan Saya bersedia untuk menyokong ini?
-
Elektrik:
Kuasa ialah nadi kehidupan mana-mana sistem. Rak tiba dengan kuasa terbina dalam, dan pusat data bergerak melangkaui persediaan N atau 2N tradisional. Sistem kini memerlukan nombor ganjil sambungan, yang menjadikan lebihan tidak dapat diramalkan, sama ada untuk PDU, busbar, ATS atau transformer N(x).
-
Seni Bina:
Setiap lelaran baharu membawa perubahan: ekzos kabel, rangkaian cecair penyejuk, pertimbangan galas beban. Setiap komponen mesti diambil kira, dan tiada kegagalan tunggal yang sepatutnya menjejaskan yang lain. Pusat data mesti berskala dari HPC kepada AI generasi akan datang dengan reka bentuk semula yang minimum.
-
Mekanikal:
Riser yang mampu menyokong dua hingga tiga ratus kilo atau lebih pada masa hadapan, ruang plenum untuk kabel kuasa dan rangkaian yang besar, dan elaun untuk infrastruktur penyejukan yang luas adalah cabaran harian bagi pasukan projek. Setiap aspek kejuruteraan fizikal mesti dipertimbangkan, dan semua keperluan mekanikal dipenuhi.
*Penulis mengendalikan operasi dan strategi hujung ke hujung untuk Compute Nordic. Beliau mempunyai pengalaman sekitar 13 tahun dengan pelbagai pemain DC utama di India dan Norway.
**Artikel ini pertama kali muncul dalam Isu 9 majalah Awan & Pusat Data W.Media. Klik imej di bawah dan pergi ke halaman 22-23 untuk membaca cerita tersebut.