Silikon bergerak lebih pantas daripada keluli dan pusat data mesti seiring

Daripada mengetuai kapal selam serangan pantas berkuasa nuklear hingga memimpin projek pusat data hiperskala di AWS, Meta dan Oracle, Tony Grayson membawakan gabungan unik antara ketepatan, ketahanan dan kepakaran teknikal kepada infrastruktur AI.

Kini Presiden dan Pengurus Besar di Northstar Federal & Northstar Enterprise & Defense, Grayson (di atas, kanan) akan menyampaikan Ucaptama Utama di Konvensyen Awan & Pusat Data 2025 di Sydney, meneliti bagaimana pengkomputeran pembelajaran pengukuhan (RL) dan AI beragen memacu peralihan kepada pengkomputeran teragih.

W.Media duduk bersama beliau untuk membincangkan maksud perkembangan ini untuk reka bentuk infrastruktur, penggunaan pantas, kemampanan dan permintaan masa depan ke atas pengendali telekom dan awan.W.Media: Sebagai seseorang yang membina dan mengembangkan syarikat sehingga berjuta-juta dalam kontrak, apakah nasihat anda untuk organisasi yang merancang pelaburan infrastruktur AI hari ini? Bagaimanakah mereka harus menstrukturkan pelaburan ini untuk mengekalkan fleksibiliti untuk pivot, keluar atau peralihan teknologi dalam tempoh 3-5 tahun akan datang?

Grayson: Daripada pengalaman saya di NorthStar dan mengembangkan EdgePoint Systems, ketangkasan mesti diterapkan di setiap lapisan untuk mengikuti perubahan pesat AI. Pertama, gunakan binaan modular dan tambahan berbanding binaan monolitik. Pusat data modular (MDC) digunakan dalam 3–9 bulan pada ~US$7–9 juta setiap MW (purata AS/Australia), berbanding 18–24 bulan dan US$12–15 juta setiap MW untuk hiperskala. Ini mengelakkan peruntukan berlebihan dan kapasiti terkandas daripada kitaran penyegaran perkakasan. Anggap reka bentuk anda sebagai blok Lego: piawaikan komponen untuk penyesuaian besar-besaran sambil memastikan kebolehselenggaraan.

MDC juga membantu memintas kelewatan permit selama 6–18 bulan; binaan pasang siap boleh mengurangkan garis masa di tapak sebanyak 50–70% dan mengelakkan semakan alam sekitar penuh, membolehkan retrofi tanah terbiar atau tapak tepi berhampiran substesen untuk mengelakkan kelewatan barisan grid seperti tunggakan berbilang tahun PJM. Kedua, pilih seni bina hibrid/berbilang awan yang agnostik vendor untuk mengelakkan penguncian – menampung NVIDIA, AMD, Groq dan piawaian seperti ONNX. Pertimbangkan pajakan Opex untuk MDC untuk menyokong keluar atau pivot.

Ketiga, belanjakan 20–30% untuk teknologi baru muncul seperti pembelajaran pengukuhan teragih (RL) dan AI beragen-RL boleh mengurangkan kependaman di bawah 10 ms dan, menurut McKinsey, AI beragen boleh mencecah AS$50 bilion menjelang 2030 (CAGR 45%). Gunakan rangka kerja perancangan senario untuk memetakan senario “andaikata” dan merancang untuk beban kerja berat inferens, yang diunjurkan pada 60–80% perbelanjaan AI menjelang 2030 (AS$254 bilion, CAGR 17.5%). Akhir sekali, pautkan semua pelaburan kepada ROI – MDC boleh mengurangkan kos pembinaan sebanyak 40–60% dan mempercepatkan hasil melalui penggunaan yang lebih pantas. Ingat, teknologi sahaja tidak menjana hasil; infrastruktur yang boleh disesuaikan melakukannya.W.Media: Memandangkan penekanan anda bahawa “silikon bergerak lebih pantas daripada keluli dan konkrit,” bagaimanakah organisasi harus mengimbangi pelaburan infrastruktur jangka panjang dengan realiti bahawa silikon disegarkan setiap 12-24 bulan? Rangka kerja perancangan manakah yang paling sesuai untuk paradoks ini?

Grayson: Frasa “silikon bergerak lebih pantas daripada keluli dan konkrit” merumuskan cabaran terbesar dalam infrastruktur AI. Perkakasan disegarkan setiap 12–24 bulan, yang jauh lebih pantas daripada kitaran pembinaan pusat data tradisional, dan yang boleh menyebabkan anda kehilangan berjuta-juta aset jika anda tidak berhati-hati. Kuncinya ialah memisahkan infrastruktur anda daripada mana-mana generasi silikon tunggal. Itu menjadi lebih penting apabila kita memasuki era Rubin, dengan ketumpatan kuasa meningkat daripada 800 kW kepada 1.5 MW setiap rak untuk sistem Hopper atau Grace Blackwell – dan rak tersebut boleh menimbang dua kali ganda daripada hari ini.

Satu pendekatan yang saya gunakan ialah apa yang saya panggil “kitaran penyegaran modular,” membahagikan infrastruktur kepada pod yang boleh dinaik taraf tanpa mengganggu keseluruhan tapak. Di NorthStar, pusat data modular kami menyokong rak daripada 30–132 kW dan menggunakan penyejukan cecair termaju, jadi kami boleh memasukkan dan mengeluarkan silikon baharu mengikut keperluan. Kami merancang dalam ufuk 18–24 bulan tetapi model sepanjang kitaran hayat lima tahun, dengan mengambil kira penjimatan opex 20–30% yang diberikan oleh modulariti. Gunakan rangka kerja seperti simulasi Monte Carlo untuk ketaktentuan harga silikon dan analisis sensitiviti untuk kesan penyegaran untuk menavigasi ketidakpastian ini.

Landskap persaingan juga berubah: walaupun NVIDIA menguasai latihan melalui CUDA, MI400X AMD mencabar dalam inferens, dan silikon tersuai seperti Groq boleh mengoptimumkan lagi. Latihan RL (seperti dalam Grok 4) menggemari pengkomputeran teragih, mengurangkan keperluan pemusatan.

Kami menumpukan pada GPU hari ini, tetapi masa depan ialah seni bina tercerai dengan Compute Express Link (CXL), yang membolehkan CPU dan GPU mengumpulkan memori atas permintaan. GPU tradisional mengikat HBM pada setiap cip, menyebabkan kapasiti terkandas dan kos suis 30% lebih tinggi. CXL memberikan lebih daripada 30% prestasi yang lebih baik setiap watt dan mengurangkan jumlah kos sebanyak 20–30%. Saya telah melihat MDC yang menjalankan pemecut terkumpul CXL meningkatkan daya pemprosesan sebanyak 25% berbanding persediaan GPU sahaja, manakala rangka kerja terbuka seperti ONNX membantu mengelakkan penguncian vendor.

Setiap gelombang teknologi – GPU, RL teragih, kuantum (berpotensi memerlukan kemudahan terlindung khusus) – menuntut infrastruktur yang berbeza. Andaian pusat data lama mengenai kitaran hayat pelanggan selama 20 hingga 30 tahun sudah mati. AI bergerak terlalu pantas, dan anda perlu mereka bentuk untuk risiko keusangan 3 hingga 5 tahun. Modulariti dan model opex yang fleksibel memastikan keluli dan konkrit anda berfungsi sebagai asas, bukan sangkar.W.Media: Dalam artikel yang anda tulis baru-baru ini, anda mencabar industri untuk bertanya “bagaimana anda akan menjana wang?” sebelum membina infrastruktur AI yang besar. Metrik kewangan dan model ROI khusus manakah yang harus digunakan oleh organisasi apabila merancang untuk keperluan beban kerja AI yang tidak dapat diramalkan?

Grayson: Cabaran itu bermuara kepada ini: model bahasa tidak menjana wang secara semula jadi melainkan anda pembekal perkhidmatan awan atau neo-awan – inferens ialah tempat hasil terletak. Capex penting, tetapi opex akan menentukan kemampanan. Untuk merancang di tengah-tengah ketidakbolehan diramal beban kerja, anda perlu menumpukan pada metrik yang terikat terus kepada penciptaan nilai.

Metrik utama untuk dijejaki termasuk mengutamakan TCO setiap inferens – sasarkan pengurangan 30-70% melalui silikon tersuai seperti Groq LPU, yang boleh menjana sehingga 50x lebih hasil (fikirkan AS$15,500/hari setiap rak berbanding AS$310/hari untuk setara H100). Pantau Keberkesanan Penggunaan Kuasa dengan PUE di bawah 1.2 untuk MDC berbanding 1.5+ untuk tapak warisan. Jejaki capex setiap MW – binaan modular menawarkan kelebihan kos yang ketara berbanding pendekatan tradisional. Perhatikan risiko kapasiti terkandas, yang boleh mencecah AS$100-500 juta untuk binaan yang tidak fleksibel.

Jangan lupa daya pemprosesan inferens – Groq boleh memberikan 100,000+ token/saat berbanding sekitar 2,000 pada H100 – dan kecekapan tenaga diukur dalam token/saat/kW.

Untuk model ROI, laksanakan apa yang saya panggil pendekatan “Bayaran Balik Berperingkat”. Hitung Kadar Pulangan Dalaman anda dalam tempoh lima tahun – anda mahukan 25%+ untuk MDC 1MW dengan GPU NVIDIA B200, yang berpotensi menghasilkan margin AS$3.4 juta daripada perkhidmatan AI. Gunakan Nilai Kini Bersih untuk mendiskaun aliran tunai masa hadapan, dengan mengambil kira CAGR 17.5% yang diunjurkan pasaran inferens kepada AS$254 bilion menjelang 2030. Ambil kira kos peluang – penggunaan modular yang lebih pantas boleh menjimatkan berjuta-juta dolar dalam hasil yang tertangguh.

Untuk ketidakpastian, manfaatkan simulasi Monte Carlo pada peralihan beban kerja seperti penguasaan inferens 60-80% yang diunjurkan dan turun naik harga silikon – kadar H100 menurun daripada AS$4/jam kepada sekitar AS$0.9/jam.

ROI berasaskan senario adalah penting: kes asas menganggap latihan terpusat, kes optimistik mengambil kira RL teragih yang mengurangkan kos sebanyak 35%, kes pesimis mengambil kira 20% kapasiti terkandas. Sentiasa asas segala-galanya dalam asas hasil: Apakah hasil dolar-setiap-token atau dolar-setiap-pertanyaan anda? Cip tersuai selalunya memberikan kos-setiap-inferens 10-25x lebih baik, menjadikannya lindung nilai yang kukuh terhadap pengkomoditian.W.Media: Anda telah menyokong kuat pusat data modular berbanding pendekatan giga-kampus tradisional. Apakah kriteria keputusan utama yang harus digunakan oleh organisasi untuk menentukan bila modulariti masuk akal berbanding bila ekonomi skala menggemari infrastruktur yang lebih besar dan terpusat?

Grayson: Modulariti cemerlang apabila ketangkasan melebihi ekonomi skala mentah. Terus terang, saya ragu-ragu bahawa skala semata-mata sentiasa diperlukan – pemecut AI telah menggandakan PFLOPS kira-kira setiap enam bulan, menunjukkan volum token mungkin mendatar di tengah-tengah kekurangan data, manakala pengkomputeran RL mendorong ke arah pengagihan.

Dari perspektif kos dan risiko, modulariti menang untuk di bawah AS$10 juta setiap MW dengan penjimatan TCO 35–60%, mengelakkan AS$100 juta-plus dalam aset terkandas daripada peralihan teknologi. Infrastruktur terpusat berfungsi untuk US$/kWh ultra rendah pada skala 100 MW-plus, tetapi membawa risiko pendahuluan yang lebih tinggi. Jenis beban kerja juga penting – inferens tepi dan RL teragih, seperti Grok 4, menggemari MDC untuk kependaman sub-10 ms, manakala pra-latihan besar-besaran masih memerlukan lebar jalur dan ketumpatan hiperskala. Kebolehskalaan juga memainkan peranan: pilih penambahan pod tambahan untuk permintaan yang tidak menentu, terpusat untuk latihan volum tinggi yang boleh diramal.

Berkenaan kemampanan dan kedaulatan, MDC mengintegrasikan tenaga boleh baharu dengan lebih mudah – mencapai prestasi PUE yang unggul dan 40–60% kurang CO2 yang terjelma – dan membolehkan lokaliti data. Modulariti boleh mencapai karbon terjelma 20–30% lebih rendah daripada binaan tradisional melalui pasang siap, bahan kitar semula dan pengurangan sisa.

Geografi selalunya menentukan jadi pilih modulariti tepi atau serantau untuk aplikasi sensitif kependaman, terpusat untuk pengkomputeran pukal di kawasan kaya tenaga. Selalunya model hibrid, dengan MDC menambah hiperskala, mencapai keseimbangan terbaik. Pendekatan modular juga menawarkan kelebihan penggunaan melalui proses permit yang diperkemas.W.Media: Dengan cip menunjukkan potensi hasil 50x+ berbanding GPU tradisional, bagaimanakah organisasi harus melindung nilai pertaruhan mereka merentasi seni bina silikon yang berbeza (NVIDIA, AMD, Groq, AWS Inferentia) apabila “pemenang” masih tidak jelas?

Grayson: Memandangkan cip tersuai seperti Groq menunjukkan kelebihan hasil 50x dan MI300X AMD mendapat tarikan dalam inferens, lindung nilai adalah mengenai membina agnostisisme ke dalam tindanan anda. Gunakan hanya untuk keperluan segera, kerana pemerolehan tanah dan garis masa permit boleh menyekat pivot. Piawaikan reka bentuk supaya anda boleh bertukar dengan cepat antara seni bina, dan pastikan anda mempunyai laluan naik taraf yang jelas. Sokong kedua-dua tapak greenfield dan brownfield untuk fleksibiliti. Di NorthStar, MDC kami menampung NVIDIA, AMD, Groq dan AWS Inferentia melalui rak fleksibel 30–132 kW+ dan keserasian ONNX.

Strategi penyegaran harus menjajarkan kepada kitaran 12–18 bulan, dan MDC membenarkan pelancaran tanpa masa henti. Kepelbagaikan perkongsian untuk mendapatkan akses kepada beta dan peluang pembangunan bersama, dan pantau peralihan ekosistem. Penguasaan CUDA NVIDIA dalam latihan mungkin tidak berlaku dalam inferens, di mana kecekapan mengatasi generaliti. Awan Pembangun AMD, yang dilancarkan pada Jun 2025, ialah contoh yang baik – peningkatan ROCm 7, MI350X memberikan sehingga 35x inferens yang lebih baik berbanding generasi sebelumnya pada 2025 dan MI400X pada 2026, menawarkan harga yang agresif dan ekosistem terbuka yang menyaingi Awan DGX NVIDIA. Ini mempercepatkan alternatif untuk inferens dan boleh menurunkan TCO dengan memberikan 40% lebih token setiap dolar.W.Media: Memandangkan latar belakang kapal selam nuklear anda dan kerja nasihat mengenai penggunaan SMR dan mikro-reaktor untuk beban kerja AI tepi, apakah peranan yang anda lihat dimainkan oleh kuasa nuklear dalam masa depan infrastruktur pusat data, terutamanya untuk penggunaan AI yang kritikal misi dan bebas karbon? Bagaimanakah pengendali DC harus melihat tenaga boleh baharu dalam masa yang sama?

Grayson: Daripada arahan kapal selam nuklear saya dan peranan nasihat SMR, nuklear akan menjadi transformatif untuk infra AI yang berdaya tahan dan bebas karbon, terutamanya di tepi. SMR dan mikro-reaktor boleh menjana kuasa MDC menjelang 2035 yang sangat berbeza daripada pemasaran di luar sana, menawarkan tenaga beban asas untuk penggunaan kedaulatan dan kritikal misi. Secara realistik, garis masa berbeza-beza: reaktor Gen III+ (dengan penyejukan pasif) boleh digunakan sekarang, mikro-reaktor mungkin mencapai skala menjelang 2027-2028, manakala Gen IV menghadapi halangan dalam kelulusan reka bentuk, ujian dan sumber bahan api.

Menjelang 2035, kita mungkin melihat rak 10 MW menyamai 3 GW hari ini dalam PFLOPS, menguatkan lagi tarikan nuklear. Dalam masa yang sama, anggap tenaga boleh baharu sebagai jambatan penting: integrasikan solar/angin untuk 40%+ campuran tenaga MDC, disokong oleh bateri dan mikrogrid untuk kestabilan. Terokai gas asli sebagai sandaran yang boleh dipercayai; potensi hidrogen kekal, walaupun lebih perlahan daripada yang dijangkakan. Laluan hibrid ini memastikan matlamat karbon tanpa menjejaskan masa operasi. Metrik Kemampanan Di Sebalik PUE: Untuk melengkapkan tenaga boleh baharu, pertimbangkan pengurangan karbon terjelma melalui modulariti (20-30% lebih rendah) dan kecekapan air – AI boleh memerlukan 4.2-6.6 bilion meter padu secara global menjelang 2027, tetapi penyejukan cecair gelung tertutup dalam kitar semula MDC 90-95% air, menangani 1-5 liter setiap penggunaan pertanyaan.W.Media: Anda menyebut bahawa pendekatan Grok 4 terhadap pembelajaran pengukuhan teragih boleh mengubah model penggunaan. Bagaimanakah organisasi harus bersedia untuk potensi peralihan daripada pergantungan hiperskala terpusat kepada seni bina AI yang lebih teragih dan berfokuskan tepi?

Grayson: Grok 4 menandakan peralihan besar dalam keseimbangan latihan. LLM yang lebih awal menumpukan terutamanya pada pra-latihan, dengan hanya pembelajaran pengukuhan ringan daripada maklum balas manusia (RLHF). Grok 4 menggunakan sekitar 100× lebih jumlah pengkomputeran daripada Grok 2, membahagikannya sama rata antara pra-latihan dan RL, dan memberikan hasil canggih pada penanda aras seperti Peperiksaan Terakhir Kemanusiaan. RLHF meningkatkan kedalaman penaakulan model, dan RL berbilang agen Grok 4 – di mana agen membahaskan jawapan atau mensimulasikan laluan penaakulan – telah menunjukkan prestasi yang kukuh untuk kes penggunaan kependaman rendah dan berfokuskan tepi.

Tidak seperti pra-latihan, yang memerlukan kelompok monolitik, beban kerja RL lebih selari dan bertolak ansur dengan kependaman. Aliran kerja terbahagi kepada tiga peranan: pekerja pelancaran (menjana output), nod penilaian (menjaringkan output) dan nod pelajar (mengemas kini parameter). Pekerja pelancaran dan penilai boleh mengendalikan kependaman berpuluh hingga beratus milisaat dan berjalan pada perkakasan lama atau komoditi, manakala kaedah baharu seperti GRPO mengurangkan komunikasi antara nod dan menghapuskan model pengkritik yang berasingan, menurunkan TCO sebanyak 10–20%.

Demo INTELLECT-2 menunjukkan persediaan RL parameter 32B mengurangkan masa tindak balas sebanyak 15% dan permintaan gagal sebanyak 24%. Model sehingga 10-30B parameter boleh menjalankan RLHF penuh pada GPU tunggal, manakala model 70B+ pun boleh mengagihkan merentasi sumber yang lebih murah menggunakan rangka kerja seperti openRLHF, TBA dan Ray RLlib.

Untuk bersedia: melabur dalam MDC Tepi untuk <10ms penilaian menggunakan rangka kerja seperti OpenRLHF atau GRPO; pandu uji aliran kerja RL teragih merentasi pod serantau (berpotensi mengurangkan TCO sebanyak 35%); menerima pakai strategi hibrid yang mengekalkan hiperskala untuk pra-latihan sambil mengalihkan RL/inferens ke tepi untuk kedaulatan dan penjimatan kos; dan bina alat dengan pembelajaran bersekutu dan reka bentuk agnostik vendor untuk penyesuaian pantas.W.Media: Apakah pengajaran yang boleh diambil oleh pengendali pusat data Australia daripada cara industri berkembang di AS?

Grayson: Pengendali Australia harus mengambil perhatian terhadap perangkap AS seperti pembinaan berlebihan yang membawa kepada aset terdampar, sebaliknya beralih kepada model modular/pinggir untuk ketangkasan yang lebih tinggi. Gunakan pendekatan modular untuk penggunaan pantas, kemampanan yang dipertingkatkan melalui tenaga boleh baharu, dan tumpuan pada RL/inferens—gunakan pod tanpa bergantung kepada vendor untuk mengurangkan ketidakstabilan silikon. Tekankan AI berdaulat melalui infrastruktur pinggir tempatan.

Pelajaran teras AS ialah dalam evolusi pusaran AI, utamakan modulariti berbanding jisim – cipta sistem teragih yang mudah disesuaikan untuk bersaing dengan silikon dan mengelakkan monolit yang lapuk. Fleksibiliti ialah kelebihan muktamad. Bagi pengendali Australia, ini bermakna mengutamakan pematuhan dengan peraturan APRA untuk kestabilan kewangan dan perlindungan data, bersama-sama dengan piawaian global seperti GDPR untuk operasi rentas sempadan. Dalam persediaan RL teragih, masukkan pengerasan siber—cth., seni bina tanpa kepercayaan dan pembelajaran bersekutu yang disulitkan—untuk melindungi daripada ancaman dalam persekitaran pinggir, memastikan kedaulatan tanpa mengorbankan prestasi.W.Media: Apakah satu pengajaran yang anda harapkan para hadirin akan bawa dari Ucaptama anda di Sydney?

Grayson: Masa depan infrastruktur AI tidak dapat diramalkan – pupuk ketangkasan untuk beralih dengan pantas, meminimumkan perbelanjaan modal jangka panjang dalam penggunaan di mana perubahan pasaran yang pesat boleh menghakis pulangan. Modulariti bukan sekadar taktik; ia adalah prinsip untuk berkembang maju di tengah-tengah ketidakpastian.Butiran acara: Pusat Konvensyen Antarabangsa Sydney, 21 Ogos 2025, 8:00 pagi–8:30 malam.

Daftar di sini: https://clouddatacenter.events/events/sydney-cloud-datacenter-convention-2025/

 

Publish on W.Media
Author Info:
Picture of Simon Dux
Simon Dux
Share This Article
Related Posts
Other Popular Posts
South Asia News [MS]
Expert Speak [MS]