Dari memimpin kapal selam serang cepat bertenaga nuklir hingga memimpin proyek pusat data hiperskala di AWS, Meta, dan Oracle, Tony Grayson membawa perpaduan unik antara ketepatan, ketahanan, dan keahlian teknis ke infrastruktur AI.
Sekarang Presiden dan General Manager di Northstar Federal & Northstar Enterprise & Defense, Grayson (di atas, kanan) akan menyampaikan Pidato Utama di Konvensi Cloud & Datacenter 2025 di Sydney, yang membahas bagaimana komputasi reinforcement learning (RL) dan AI agentif mendorong pergeseran ke komputasi terdistribusi.
W.Media duduk bersamanya untuk membahas apa arti perkembangan ini bagi desain infrastruktur, penerapan cepat, keberlanjutan, dan tuntutan masa depan pada operator telekomunikasi dan cloud.W.Media: Sebagai seseorang yang membangun dan mengembangkan perusahaan hingga jutaan kontrak, nasihat apa yang Anda miliki untuk organisasi yang merencanakan investasi infrastruktur AI saat ini? Bagaimana mereka harus menyusun investasi ini untuk mempertahankan fleksibilitas untuk pivot, keluar, atau perubahan teknologi selama 3-5 tahun ke depan?
Grayson: Dari pengalaman saya di NorthStar dan mengembangkan EdgePoint Systems, kelincahan harus tertanam di setiap lapisan untuk mengimbangi perubahan cepat AI. Pertama, gunakan build modular dan bertahap daripada yang monolitik. Pusat data modular (MDC) diterapkan dalam 3–9 bulan dengan biaya ~US$7–9 juta per MW (rata-rata AS/Australia), dibandingkan dengan 18–24 bulan dan US$12–15 juta per MW untuk hiperskala. Ini menghindari kelebihan penyediaan dan kapasitas yang terdampar dari siklus penyegaran perangkat keras. Pikirkan desain Anda sebagai balok Lego: standarisasi komponen untuk kustomisasi massal sambil memastikan kemudahan perawatan.
MDC juga membantu melewati penundaan perizinan selama 6–18 bulan; build prefabrikasi dapat memangkas waktu di lokasi sebesar 50–70% dan menghindari tinjauan lingkungan penuh, memungkinkan retrofit brownfield atau lokasi tepi dekat gardu induk untuk menghindari penundaan antrian jaringan seperti backlog multi-tahun PJM. Kedua, pilih arsitektur hybrid/multi-cloud yang agnostik terhadap vendor untuk menghindari penguncian – mengakomodasi NVIDIA, AMD, Groq dan standar seperti ONNX. Pertimbangkan leasing Opex untuk MDC untuk mendukung keluar atau pivot.
Ketiga, anggarkan 20–30% untuk teknologi yang sedang berkembang seperti distributed reinforcement learning (RL) dan agentic AI-RL dapat memangkas latensi di bawah 10 ms dan, menurut McKinsey, agentic AI dapat mencapai US$50 miliar pada tahun 2030 (CAGR 45%). Gunakan kerangka kerja perencanaan skenario untuk memetakan skenario “bagaimana jika” dan merencanakan beban kerja yang sangat bergantung pada inferensi, yang diproyeksikan sebesar 60–80% dari pengeluaran AI pada tahun 2030 (US$254 miliar, CAGR 17,5%). Terakhir, tautkan semua investasi ke ROI – MDC dapat memangkas biaya build sebesar 40–60% dan mempercepat pendapatan melalui penerapan yang lebih cepat. Ingat, teknologi saja tidak menghasilkan pendapatan; infrastruktur yang mudah beradaptasi yang melakukannya.W.Media: Mengingat penekanan Anda bahwa “silikon bergerak lebih cepat daripada baja dan beton,” bagaimana organisasi harus menyeimbangkan investasi infrastruktur jangka panjang dengan kenyataan bahwa silikon disegarkan setiap 12-24 bulan? Kerangka kerja perencanaan apa yang paling cocok untuk paradoks ini?
Grayson: Ungkapan “silikon bergerak lebih cepat daripada baja dan beton” merangkum tantangan terbesar dalam infrastruktur AI. Perangkat keras disegarkan setiap 12–24 bulan, yang jauh lebih cepat daripada siklus build pusat data tradisional, dan itu dapat membuat Anda memiliki aset yang terdampar senilai jutaan jika Anda tidak berhati-hati. Kuncinya adalah memisahkan infrastruktur Anda dari satu generasi silikon pun. Itu menjadi lebih penting saat kita memasuki era Rubin, dengan kepadatan daya meningkat dari 800 kW menjadi 1,5 MW per rak untuk sistem Hopper atau Grace Blackwell – dan rak-rak itu dapat memiliki berat dua kali lipat dari yang sekarang.
Salah satu pendekatan yang saya gunakan adalah apa yang saya sebut “siklus penyegaran modular,” memecah infrastruktur menjadi pod yang dapat ditingkatkan tanpa mengganggu seluruh situs. Di NorthStar, pusat data modular kami mendukung rak dari 30–132 kW dan menggunakan pendinginan cair canggih, sehingga kami dapat memasukkan dan mengeluarkan silikon baru sesuai kebutuhan. Kami merencanakan dalam cakrawala 18–24 bulan tetapi membuat model selama siklus hidup lima tahun, dengan memperhitungkan penghematan opex 20–30% yang dihasilkan modularitas. Gunakan kerangka kerja seperti simulasi Monte Carlo untuk volatilitas harga silikon dan analisis sensitivitas untuk dampak penyegaran untuk menavigasi ketidakpastian ini.
Lanskap kompetitif juga berubah: sementara NVIDIA mendominasi pelatihan melalui CUDA, MI400X AMD menantang dalam inferensi, dan silikon khusus seperti Groq dapat mengoptimalkan lebih lanjut. Pelatihan RL (seperti pada Grok 4) lebih menyukai komputasi terdistribusi, mengurangi kebutuhan sentralisasi.
Kami fokus pada GPU hari ini, tetapi masa depan adalah arsitektur teragregasi dengan Compute Express Link (CXL), yang memungkinkan CPU dan GPU mengumpulkan memori sesuai permintaan. GPU tradisional mengikat HBM ke setiap chip, menyebabkan kapasitas terdampar dan biaya switch 30% lebih tinggi. CXL memberikan kinerja per watt 30% lebih baik dan memangkas total biaya sebesar 20–30%. Saya telah melihat MDC yang menjalankan akselerator gabungan CXL meningkatkan throughput sebesar 25% dibandingkan dengan pengaturan khusus GPU, sementara kerangka kerja terbuka seperti ONNX membantu menghindari penguncian vendor.
Setiap gelombang teknologi – GPU, distributed RL, quantum (yang berpotensi membutuhkan fasilitas terlindung khusus) – menuntut infrastruktur yang berbeda. Asumsi pusat data lama tentang siklus hidup pelanggan 20 hingga 30 tahun sudah mati. AI bergerak terlalu cepat, dan Anda harus merancang untuk risiko keusangan 3 hingga 5 tahun. Modularitas dan model opex fleksibel menjaga baja dan beton Anda berfungsi sebagai fondasi, bukan sangkar.W.Media: Dalam artikel terbaru yang Anda tulis, Anda menantang industri untuk bertanya “bagaimana Anda akan menghasilkan uang?” sebelum membangun infrastruktur AI besar-besaran. Metrik keuangan dan model ROI spesifik apa yang harus digunakan organisasi saat merencanakan persyaratan beban kerja AI yang tidak dapat diprediksi?
Grayson: Tantangannya bermuara pada ini: model bahasa tidak secara inheren menghasilkan uang kecuali Anda adalah penyedia layanan cloud atau neo-cloud – inferensi adalah tempat pendapatan berada. Capex penting, tetapi opex akan menentukan keberlanjutan. Untuk merencanakan di tengah ketidakpastian beban kerja, Anda perlu fokus pada metrik yang terkait langsung dengan penciptaan nilai.
Metrik utama untuk dilacak termasuk memprioritaskan TCO per inferensi – target pengurangan 30-70% melalui silikon khusus seperti Groq LPU, yang dapat menghasilkan hingga 50x lebih banyak pendapatan (pikirkan US$15.500/hari per rak versus US$310/hari untuk setara H100). Pantau Efektivitas Penggunaan Daya dengan PUE di bawah 1,2 untuk MDC versus 1,5+ untuk situs warisan. Lacak capex per MW – build modular menawarkan keuntungan biaya yang signifikan dibandingkan pendekatan tradisional. Perhatikan risiko kapasitas yang terdampar, yang dapat mencapai US$100-500 juta untuk build yang tidak fleksibel.
Jangan lupakan throughput inferensi – Groq dapat memberikan 100.000+ token/detik versus sekitar 2.000 pada H100 – dan efisiensi energi yang diukur dalam token/detik/kW.
Untuk model ROI, terapkan apa yang saya sebut pendekatan “Pembayaran Bertahap”. Hitung Tingkat Pengembalian Internal Anda selama lima tahun – Anda menginginkan 25%+ untuk MDC 1MW dengan GPU NVIDIA B200, yang berpotensi menghasilkan margin US$3,4 juta dari layanan AI. Gunakan Nilai Sekarang Bersih untuk mendiskontokan arus kas masa depan, dengan memperhitungkan proyeksi CAGR 17,5% pasar inferensi menjadi US$254 miliar pada tahun 2030. Perhitungkan biaya peluang – penerapan modular yang lebih cepat dapat menghemat jutaan dolar dalam pendapatan yang tertunda.
Untuk ketidakpastian, manfaatkan simulasi Monte Carlo pada perubahan beban kerja seperti dominasi inferensi 60-80% yang diproyeksikan dan fluktuasi harga silikon – tarif H100 turun dari US$4/jam menjadi sekitar US$0,9/jam.
ROI berbasis skenario sangat penting: kasus dasar mengasumsikan pelatihan terpusat, kasus optimis memperhitungkan distributed RL yang memangkas biaya sebesar 35%, kasus pesimis memperhitungkan 20% kapasitas yang terdampar. Selalu dasarkan semuanya pada fundamental pendapatan: Berapa hasil dolar per token atau dolar per kueri Anda? Chip khusus sering memberikan biaya per inferensi 10-25x lebih baik, menjadikannya lindung nilai yang solid terhadap komoditisasi.W.Media: Anda telah sangat menganjurkan pusat data modular daripada pendekatan giga-kampus tradisional. Kriteria keputusan utama apa yang harus digunakan organisasi untuk menentukan kapan modularitas masuk akal versus kapan ekonomi skala lebih menyukai infrastruktur terpusat yang lebih besar?
Grayson: Modularitas unggul ketika kelincahan lebih besar daripada ekonomi skala mentah. Terus terang, saya skeptis bahwa skala semata-mata selalu diperlukan – akselerator AI telah menggandakan PFLOPS kira-kira setiap enam bulan, menunjukkan volume token dapat mencapai dataran tinggi di tengah kelangkaan data, sementara komputasi RL mendorong ke arah distribusi.
Dari perspektif biaya dan risiko, modularitas menang untuk di bawah US$10 juta per MW dengan penghematan TCO 35–60%, menghindari aset yang terdampar senilai US$100 juta plus dari perubahan teknologi. Infrastruktur terpusat berfungsi untuk US$/kWh ultra-rendah pada skala 100 MW plus, tetapi membawa risiko awal yang lebih tinggi. Jenis beban kerja juga penting – inferensi tepi dan distributed RL, seperti Grok 4, lebih menyukai MDC untuk latensi di bawah 10 ms, sementara pra-pelatihan besar-besaran masih membutuhkan bandwidth dan kepadatan hiperskala. Skalabilitas juga berperan: pilih penambahan pod bertahap untuk permintaan yang bergejolak, terpusat untuk pelatihan volume tinggi yang dapat diprediksi.
Pada keberlanjutan dan kedaulatan, MDC mengintegrasikan energi terbarukan dengan lebih mudah – mencapai kinerja PUE yang unggul dan CO2 yang terkandung 40–60% lebih sedikit – dan memungkinkan lokalitas data. Modularitas dapat mencapai karbon yang terkandung 20–30% lebih rendah daripada build tradisional melalui fabrikasi, bahan daur ulang, dan pengurangan limbah.
Geografi sering memutuskan sehingga memilih modularitas tepi atau regional untuk aplikasi yang sensitif terhadap latensi, terpusat untuk komputasi massal di area yang kaya energi. Seringkali model hybrid, dengan MDC yang menambah hiperskala, mencapai keseimbangan terbaik. Pendekatan modular juga menawarkan keuntungan penerapan melalui proses perizinan yang efisien.W.Media: Dengan chip yang menunjukkan potensi pendapatan 50x+ lebih besar daripada GPU tradisional, bagaimana organisasi harus melindungi taruhan mereka di berbagai arsitektur silikon (NVIDIA, AMD, Groq, AWS Inferentia) ketika “pemenang” masih belum jelas?
Grayson: Karena chip khusus seperti Groq menunjukkan keunggulan pendapatan 50x dan MI300X AMD mendapatkan daya tarik dalam inferensi, lindung nilai adalah tentang membangun agnostisisme ke dalam tumpukan Anda. Terapkan hanya untuk kebutuhan mendesak, karena akuisisi tanah dan garis waktu perizinan dapat menghambat pivot. Standarisasi desain sehingga Anda dapat dengan cepat bertukar antar arsitektur, dan pastikan Anda memiliki jalur peningkatan yang jelas. Dukung situs greenfield dan brownfield untuk fleksibilitas. Di NorthStar, MDC kami mengakomodasi NVIDIA, AMD, Groq, dan AWS Inferentia melalui rak fleksibel 30–132 kW+ dan kompatibilitas ONNX.
Strategi penyegaran harus selaras dengan siklus 12–18 bulan, dan MDC memungkinkan peluncuran tanpa waktu henti. Diversifikasi kemitraan untuk mendapatkan akses ke beta dan peluang pengembangan bersama, dan pantau perubahan ekosistem. Dominasi CUDA NVIDIA dalam pelatihan mungkin tidak berlaku dalam inferensi, di mana efisiensi lebih penting daripada generalitas. Awan Pengembang AMD, yang diluncurkan pada Juni 2025, adalah contoh yang baik – peningkatan ROCm 7, MI350X memberikan inferensi hingga 35x lebih baik daripada generasi sebelumnya pada tahun 2025, dan MI400X pada tahun 2026, menawarkan harga agresif dan ekosistem terbuka yang menyaingi Awan DGX NVIDIA. Ini mempercepat alternatif untuk inferensi dan dapat menurunkan TCO dengan memberikan 40% lebih banyak token per dolar.W.Media: Mengingat latar belakang kapal selam nuklir Anda dan pekerjaan penasihat tentang penggunaan SMR dan mikro-reaktor untuk beban kerja AI tepi, peran apa yang Anda lihat dimainkan oleh tenaga nuklir di masa depan infrastruktur pusat data, khususnya untuk penerapan AI yang penting dan bebas karbon? Bagaimana operator DC harus melihat energi terbarukan sementara itu?
Grayson: Dari komando kapal selam nuklir saya dan peran penasihat SMR, nuklir akan menjadi transformatif untuk infrastruktur AI yang tangguh dan bebas karbon, terutama di tepi. SMR dan mikro-reaktor dapat memberi daya pada MDC pada tahun 2035 yang sangat berbeda dari pemasaran di luar sana, menawarkan energi baseload untuk penerapan kedaulatan dan misi-kritis. Secara realistis, garis waktu bervariasi: reaktor Gen III+ (dengan pendinginan pasif) dapat digunakan sekarang, mikro-reaktor dapat mencapai skala pada tahun 2027-2028, sementara Gen IV menghadapi rintangan dalam persetujuan desain, pengujian, dan sumber bahan bakar.
Pada tahun 2035, kita mungkin melihat rak 10 MW menyamai 3 GW saat ini dalam PFLOPS, memperkuat daya tarik nuklir. Sementara itu, perlakukan energi terbarukan sebagai jembatan vital: integrasikan tenaga surya/angin untuk 40%+ dari campuran energi MDC, didukung oleh baterai dan jaringan mikro untuk stabilitas. Jelajahi gas alam sebagai cadangan yang andal; potensi hidrogen tetap ada, meskipun lebih lambat dari yang diperkirakan. Jalur hybrid ini memastikan tujuan karbon tanpa mengorbankan waktu aktif. Metrik Keberlanjutan Di Luar PUE: Untuk melengkapi energi terbarukan, pertimbangkan pengurangan karbon yang terkandung melalui modularitas (20-30% lebih rendah) dan efisiensi air – AI dapat menuntut 4,2-6,6 miliar meter kubik secara global pada tahun 2027, tetapi pendinginan cair loop tertutup di MDC mendaur ulang 90-95% air, mengatasi konsumsi 1-5 liter per kueri.W.Media: Anda menyebutkan bahwa pendekatan Grok 4 terhadap distributed reinforcement learning dapat mengubah model penerapan. Bagaimana organisasi harus mempersiapkan potensi pergeseran dari ketergantungan hiperskala terpusat ke arsitektur AI yang lebih terdistribusi dan berfokus pada tepi?
Grayson: Grok 4 menandai pergeseran besar dalam keseimbangan pelatihan. LLM sebelumnya sebagian besar berfokus pada pra-pelatihan, dengan hanya reinforcement learning ringan dari umpan balik manusia (RLHF). Grok 4 menggunakan sekitar 100× lebih banyak total komputasi daripada Grok 2, membaginya sama antara pra-pelatihan dan RL, dan memberikan hasil mutakhir pada tolok ukur seperti Humanity’s Last Exam. RLHF meningkatkan kedalaman penalaran model, dan RL multi-agen Grok 4 – di mana agen memperdebatkan jawaban atau mensimulasikan jalur penalaran – telah menunjukkan kinerja yang kuat untuk kasus penggunaan latensi rendah dan berfokus pada tepi.
Tidak seperti pra-pelatihan, yang membutuhkan kluster monolitik, beban kerja RL lebih paralel dan toleran terhadap latensi. Alur kerja dibagi menjadi tiga peran: pekerja peluncuran (menghasilkan output), node evaluasi (memberi skor output), dan node pelajar (memperbarui parameter). Pekerja peluncuran dan evaluator dapat menangani latensi puluhan hingga ratusan milidetik dan berjalan pada perangkat keras lama atau komoditas, sementara metode baru seperti GRPO memotong komunikasi antar-node dan menghilangkan model kritikus terpisah, menurunkan TCO sebesar 10–20%.
Demo INTELLECT-2 menunjukkan pengaturan RL parameter 32B mengurangi waktu respons sebesar 15% dan permintaan yang gagal sebesar 24%. Model hingga parameter 10-30B dapat menjalankan RLHF penuh pada GPU tunggal, sementara bahkan model 70B+ dapat didistribusikan di seluruh sumber daya yang lebih murah menggunakan kerangka kerja seperti openRLHF, TBA, dan Ray RLlib.
Untuk mempersiapkan: berinvestasi di Edge MDC untuk evaluasi <10ms menggunakan kerangka kerja seperti OpenRLHF atau GRPO; uji coba alur kerja RL terdistribusi di seluruh pod regional (berpotensi memangkas TCO sebesar 35%); mengadopsi strategi hybrid yang menjaga hiperskala untuk pra-pelatihan sambil mengalihkan RL/inferensi ke tepi untuk kedaulatan dan penghematan biaya; dan membangun perkakas dengan pembelajaran federasi dan desain agnostik vendor untuk adaptasi cepat.W.Media: Pelajaran apa yang dapat diambil oleh operator pusat data Australia dari cara industri berkembang di AS?
Grayson: Operator Australia harus memperhatikan jebakan AS seperti pembangunan berlebihan yang menyebabkan aset terbengkalai, dan beralih ke model modular/edge untuk kelincahan yang lebih baik. Terapkan pendekatan modular untuk penerapan cepat, peningkatan keberlanjutan melalui energi terbarukan, dan fokus pada RL/inferensi—gunakan pod agnostik vendor untuk melindungi dari volatilitas silikon. Tekankan AI berdaulat melalui infrastruktur edge lokal.
Pelajaran inti dari AS adalah bahwa dalam evolusi pusaran AI, prioritaskan modularitas daripada massa – buat sistem terdistribusi yang mudah beradaptasi untuk mengimbangi silikon dan menghindari monolit usang. Fleksibilitas adalah keunggulan utama. Bagi operator Australia, ini berarti memprioritaskan kepatuhan terhadap peraturan APRA untuk stabilitas keuangan dan perlindungan data, bersama dengan standar global seperti GDPR untuk operasi lintas batas. Dalam pengaturan RL terdistribusi, masukkan pengerasan siber—misalnya, arsitektur zero-trust dan pembelajaran gabungan terenkripsi—untuk melindungi dari ancaman di lingkungan edge, memastikan kedaulatan tanpa mengorbankan kinerja.W.Media: Pelajaran apa yang Anda harapkan akan dibawa oleh peserta dari Keynote Anda di Sydney?
Grayson: Masa depan infrastruktur AI tidak dapat diprediksi – kembangkan kelincahan untuk berputar dengan cepat, meminimalkan capex jangka panjang dalam penerapan di mana pergeseran pasar yang cepat dapat mengikis keuntungan. Modularitas bukan hanya taktik; ini adalah prinsip untuk berkembang di tengah ketidakpastian.Detail acara: Sydney International Convention Centre, 21 Agustus 2025, 08:00–20:30.
Daftar di sini: https://clouddatacenter.events/events/sydney-cloud-datacenter-convention-2025/