จากการสั่งการเรือดำน้ำโจมตีเร็วพลังงานนิวเคลียร์ ไปจนถึงการเป็นผู้นำโครงการศูนย์ข้อมูลขนาดใหญ่ที่ AWS, Meta และ Oracle, Tony Grayson นำเสนอการผสมผสานที่เป็นเอกลักษณ์ของความแม่นยำ ความยืดหยุ่น และความเชี่ยวชาญทางเทคนิคมาสู่โครงสร้างพื้นฐาน AI
ปัจจุบันดำรงตำแหน่ง President and General Manager ที่ Northstar Federal & Northstar Enterprise & Defense, Grayson (ด้านบน, ขวา) จะมานำเสนอ ปาฐกถาพิเศษหลักในการประชุม Cloud & Datacenter Convention 2025 ที่ซิดนีย์โดยจะตรวจสอบว่าการคำนวณการเรียนรู้แบบเสริมกำลัง (RL) และ Agentic AI กำลังขับเคลื่อนการเปลี่ยนแปลงไปสู่การประมวลผลแบบกระจายอย่างไร
W.Media ได้นั่งคุยกับเขาเพื่อหารือว่าการพัฒนาเหล่านี้มีความหมายอย่างไรต่อการออกแบบโครงสร้างพื้นฐาน การปรับใช้ที่รวดเร็ว ความยั่งยืน และความต้องการในอนาคตของผู้ให้บริการโทรคมนาคมและคลาวด์W.Media: ในฐานะผู้ที่สร้างและขยายบริษัทจนมีสัญญาหลายล้านฉบับ คุณมีคำแนะนำอะไรสำหรับองค์กรที่วางแผนการลงทุนโครงสร้างพื้นฐาน AI ในปัจจุบัน พวกเขาควรจัดโครงสร้างการลงทุนเหล่านี้อย่างไรเพื่อรักษาความยืดหยุ่นสำหรับการเปลี่ยนแปลง การออกจากตลาด หรือการเปลี่ยนแปลงทางเทคโนโลยีในช่วง 3-5 ปีข้างหน้า
Grayson: จากประสบการณ์ของผมที่ NorthStar และการขยาย EdgePoint Systems ความคล่องตัวต้องฝังอยู่ในทุกระดับชั้นเพื่อให้ทันกับการเปลี่ยนแปลงอย่างรวดเร็วของ AI ประการแรก ให้ใช้การสร้างแบบแยกส่วนและค่อยเป็นค่อยไปมากกว่าแบบเสาหิน ศูนย์ข้อมูลแบบแยกส่วน (MDCs) สามารถปรับใช้ได้ใน 3–9 เดือนที่ ~US$7–9 ล้านต่อ MW (ค่าเฉลี่ยของสหรัฐอเมริกา/ออสเตรเลีย) เทียบกับ 18–24 เดือนและ US$12–15 ล้านต่อ MW สำหรับ Hyperscale สิ่งนี้หลีกเลี่ยงการจัดหามากเกินไปและความจุที่ถูกทิ้งร้างจากรอบการรีเฟรชฮาร์ดแวร์ คิดถึงการออกแบบของคุณเหมือนบล็อก Lego: สร้างมาตรฐานส่วนประกอบสำหรับการปรับแต่งจำนวนมาก พร้อมทั้งรับประกันความสามารถในการบำรุงรักษา
MDCs ยังช่วยหลีกเลี่ยงความล่าช้าในการขออนุญาต 6–18 เดือน การสร้างแบบสำเร็จรูปสามารถลดระยะเวลาในสถานที่ได้ 50–70% และหลีกเลี่ยงการตรวจสอบด้านสิ่งแวดล้อมอย่างเต็มรูปแบบ ทำให้สามารถปรับปรุงพื้นที่สีน้ำตาลหรือพื้นที่ขอบใกล้กับสถานีย่อยเพื่อหลีกเลี่ยงความล่าช้าของคิวกริด เช่น Backlogs หลายปีของ PJM ประการที่สอง เลือกสถาปัตยกรรมแบบ Hybrid/Multi-Cloud ที่ไม่ขึ้นกับผู้ขายเพื่อหลีกเลี่ยงการถูกผูกมัด ซึ่งรองรับ NVIDIA, AMD, Groq และมาตรฐานต่างๆ เช่น ONNX พิจารณาการเช่า Opex สำหรับ MDCs เพื่อรองรับการออกจากตลาดหรือการเปลี่ยนแปลง
ประการที่สาม จัดสรรงบประมาณ 20–30% สำหรับเทคโนโลยีเกิดใหม่ เช่น Distributed Reinforcement Learning (RL) และ Agentic AI-RL สามารถลดเวลาแฝงต่ำกว่า 10 ms และตาม McKinsey, Agentic AI อาจแตะ US$50 พันล้านภายในปี 2030 (45% CAGR) ใช้กรอบการวางแผนสถานการณ์เพื่อทำแผนที่สถานการณ์ “What-If” และวางแผนสำหรับปริมาณงานที่เน้นการอนุมาน ซึ่งคาดการณ์ไว้ที่ 60–80% ของการใช้จ่าย AI ภายในปี 2030 (US$254 พันล้าน, 17.5% CAGR) สุดท้าย เชื่อมโยงการลงทุนทั้งหมดกับ ROI – MDCs สามารถลดต้นทุนการสร้างได้ 40–60% และเร่งรายได้ผ่านการปรับใช้ที่รวดเร็วยิ่งขึ้น โปรดจำไว้ว่า เทคโนโลยีเพียงอย่างเดียวไม่ได้สร้างรายได้ โครงสร้างพื้นฐานที่ปรับเปลี่ยนได้ต่างหากW.Media: เมื่อพิจารณาถึงการเน้นย้ำของคุณว่า “ซิลิคอนเคลื่อนที่เร็วกว่าเหล็กและคอนกรีต” องค์กรควรสร้างสมดุลระหว่างการลงทุนโครงสร้างพื้นฐานระยะยาวกับความเป็นจริงที่ว่าซิลิคอนรีเฟรชทุกๆ 12-24 เดือนอย่างไร กรอบการวางแผนใดที่เหมาะที่สุดสำหรับ Paradox นี้
Grayson: วลีที่ว่า “ซิลิคอนเคลื่อนที่เร็วกว่าเหล็กและคอนกรีต” สรุปความท้าทายที่ใหญ่ที่สุดในโครงสร้างพื้นฐาน AI ฮาร์ดแวร์รีเฟรชทุกๆ 12–24 เดือน ซึ่งเร็วกว่ารอบการสร้างศูนย์ข้อมูลแบบเดิมๆ มาก และนั่นอาจทำให้คุณมีสินทรัพย์ที่ถูกทิ้งร้างมูลค่าหลายล้านหากคุณไม่ระมัดระวัง กุญแจสำคัญคือการแยกโครงสร้างพื้นฐานของคุณออกจากซิลิคอนรุ่นใดรุ่นหนึ่ง นั่นยิ่งมีความสำคัญมากขึ้นเมื่อเราเข้าสู่ยุค Rubin โดยความหนาแน่นของพลังงานผลักดันจาก 800 kW เป็น 1.5 MW ต่อ Rack สำหรับระบบ Hopper หรือ Grace Blackwell – และ Racks เหล่านั้นอาจมีน้ำหนักเป็นสองเท่าของวันนี้
แนวทางหนึ่งที่ผมใช้คือสิ่งที่ผมเรียกว่า “Modular Refresh Cycle” โดยแบ่งโครงสร้างพื้นฐานออกเป็น Pods ที่สามารถอัปเกรดได้โดยไม่กระทบต่อไซต์ทั้งหมด ที่ NorthStar ศูนย์ข้อมูลแบบแยกส่วนของเรารองรับ Racks ตั้งแต่ 30–132 kW และใช้ระบบระบายความร้อนด้วยของเหลวขั้นสูง ดังนั้นเราจึงสามารถนำซิลิคอนใหม่ออกและนำเข้าได้ตามต้องการ เราวางแผนในขอบเขต 18–24 เดือน แต่สร้างแบบจำลองตลอดวงจรชีวิตห้าปี โดยคำนึงถึงการประหยัด Opex 20–30% ที่ Modularity มอบให้ ใช้กรอบงานต่างๆ เช่น Monte Carlo Simulations สำหรับความผันผวนของราคาซิลิคอนและการวิเคราะห์ความอ่อนไหวสำหรับผลกระทบของการรีเฟรชเพื่อนำทางความไม่แน่นอนนี้
ภูมิทัศน์การแข่งขันก็กำลังเปลี่ยนแปลงเช่นกัน: ในขณะที่ NVIDIA ครองการฝึกอบรมผ่าน CUDA, MI400X ของ AMD กำลังท้าทายในการอนุมาน และซิลิคอนแบบกำหนดเอง เช่น Groq อาจปรับให้เหมาะสมยิ่งขึ้น การฝึกอบรม RL (เช่นใน Grok 4) สนับสนุนการประมวลผลแบบกระจาย ลดความต้องการในการรวมศูนย์
วันนี้เรามุ่งเน้นไปที่ GPU แต่ในอนาคตคือสถาปัตยกรรมแบบ Disaggregated ที่มี Compute Express Link (CXL) ซึ่งช่วยให้ CPU และ GPU สามารถรวมหน่วยความจำตามความต้องการได้ GPU แบบดั้งเดิมผูก HBM เข้ากับแต่ละชิป ทำให้เกิดความจุที่ถูกทิ้งร้างและต้นทุนสวิตช์ที่สูงขึ้น 30% CXL ให้ประสิทธิภาพต่อวัตต์ที่ดีขึ้นมากกว่า 30% และลดต้นทุนรวมลง 20–30% ผมเคยเห็น MDCs ที่ใช้ตัวเร่งความเร็วที่รวม CXL ปรับปรุง Throughput ได้ 25% เมื่อเทียบกับการตั้งค่า GPU อย่างเดียว ในขณะที่เฟรมเวิร์กแบบเปิด เช่น ONNX ช่วยหลีกเลี่ยงการถูกผูกมัดกับผู้ขาย
แต่ละคลื่นเทคโนโลยี – GPU, Distributed RL, Quantum (อาจต้องใช้สิ่งอำนวยความสะดวกที่มีการป้องกันเฉพาะทาง) – ต้องการโครงสร้างพื้นฐานที่แตกต่างกัน ข้อสันนิษฐานของศูนย์ข้อมูลแบบเก่าที่มีวงจรชีวิตลูกค้า 20 ถึง 30 ปีนั้นตายไปแล้ว AI เคลื่อนที่เร็วเกินไป และคุณต้องออกแบบสำหรับความเสี่ยงที่จะล้าสมัย 3 ถึง 5 ปี Modularity และโมเดล Opex ที่ยืดหยุ่นช่วยให้เหล็กและคอนกรีตของคุณทำหน้าที่เป็นรากฐาน ไม่ใช่กรงW.Media: ในบทความล่าสุดที่คุณเขียน คุณได้ท้าทายอุตสาหกรรมให้ถามว่า “คุณจะทำเงินได้อย่างไร” ก่อนที่จะสร้างโครงสร้างพื้นฐาน AI ขนาดใหญ่ องค์กรควรใช้เมตริกทางการเงินและโมเดล ROI เฉพาะใดบ้างเมื่อวางแผนสำหรับข้อกำหนดปริมาณงาน AI ที่คาดเดาไม่ได้
Grayson: ความท้าทายสรุปได้ดังนี้: แบบจำลองภาษาไม่ได้สร้างรายได้โดยเนื้อแท้ เว้นแต่คุณจะเป็นผู้ให้บริการคลาวด์หรือ Neo-Cloud – การอนุมานคือที่มาของรายได้ Capex มีความสำคัญ แต่ Opex จะกำหนดความยั่งยืน เพื่อวางแผนท่ามกลางความไม่แน่นอนของปริมาณงาน คุณต้องมุ่งเน้นไปที่เมตริกที่เชื่อมโยงโดยตรงกับการสร้างมูลค่า
เมตริกหลักที่ต้องติดตาม ได้แก่ การจัดลำดับความสำคัญของ TCO ต่อการอนุมาน – ตั้งเป้าหมายลดลง 30-70% ผ่านซิลิคอนแบบกำหนดเอง เช่น Groq LPUs ซึ่งสามารถสร้างรายได้ได้มากถึง 50 เท่า (คิดเป็น US$15,500/วันต่อ Rack เทียบกับ US$310/วันสำหรับ H100 Equivalents) ตรวจสอบประสิทธิภาพการใช้พลังงานด้วย PUE ต่ำกว่า 1.2 สำหรับ MDCs เทียบกับ 1.5+ สำหรับไซต์เดิม ติดตาม Capex ต่อ MW – การสร้างแบบแยกส่วนมีข้อได้เปรียบด้านต้นทุนอย่างมากเมื่อเทียบกับแนวทางแบบเดิม เฝ้าระวังความเสี่ยงด้านความจุที่ถูกทิ้งร้าง ซึ่งอาจแตะ US$100-500 ล้านสำหรับการสร้างที่ไม่ยืดหยุ่น
อย่าลืม Throughput การอนุมาน – Groq สามารถส่งมอบ 100,000+ โทเค็น/วินาที เทียบกับประมาณ 2,000 บน H100 – และประสิทธิภาพการใช้พลังงานที่วัดเป็นโทเค็น/วินาที/kW
สำหรับโมเดล ROI ให้ใช้สิ่งที่ผมเรียกว่าแนวทาง “Phased Payback” คำนวณอัตราผลตอบแทนภายในของคุณในช่วงห้าปี – คุณต้องการ 25%+ สำหรับ MDC 1MW ที่มี NVIDIA B200 GPU ซึ่งอาจให้ผลกำไร US$3.4 ล้านจากบริการ AI ใช้มูลค่าปัจจุบันสุทธิเพื่อลดกระแสเงินสดในอนาคต โดยคำนึงถึง CAGR 17.5% ที่คาดการณ์ไว้ของตลาดการอนุมานเป็น US$254 พันล้านภายในปี 2030 คำนึงถึงต้นทุนค่าเสียโอกาส – การปรับใช้แบบแยกส่วนที่เร็วกว่าสามารถช่วยคุณประหยัดเงินหลายล้านในรายได้ที่ล่าช้า
สำหรับความไม่แน่นอน ให้ใช้ Monte Carlo Simulations กับการเปลี่ยนแปลงปริมาณงาน เช่น การครอบงำการอนุมานที่คาดการณ์ไว้ 60-80% และความผันผวนของราคาซิลิคอน – อัตรา H100 ลดลงจาก US$4/ชั่วโมง เป็นประมาณ US$0.9/ชั่วโมง
ROI ตามสถานการณ์เป็นสิ่งจำเป็น: กรณีพื้นฐานถือว่าเป็นการฝึกอบรมแบบรวมศูนย์ กรณีที่มองโลกในแง่ดีปัจจัยการกระจาย RL ที่ลดต้นทุนลง 35% กรณีที่มองโลกในแง่ร้ายคิดเป็น 20% ของความจุที่ถูกทิ้งร้าง ยึดทุกสิ่งไว้กับพื้นฐานรายได้เสมอ: ผลตอบแทนต่อโทเค็นหรือดอลลาร์ต่อการสืบค้นของคุณคืออะไร ชิปแบบกำหนดเองมักให้ต้นทุนต่อการอนุมานที่ดีขึ้น 10-25 เท่า ทำให้เป็นเครื่องมือป้องกันความเสี่ยงที่แข็งแกร่งต่อการสร้างสินค้าโภคภัณฑ์W.Media: คุณสนับสนุนศูนย์ข้อมูลแบบแยกส่วนอย่างแข็งขันมากกว่าแนวทาง Giga-Campus แบบเดิมๆ องค์กรควรใช้เกณฑ์การตัดสินใจหลักใดบ้างเพื่อพิจารณาว่าเมื่อใดที่ Modularity สมเหตุสมผลเมื่อเทียบกับเมื่อใดที่เศรษฐกิจขนาดใหญ่สนับสนุนโครงสร้างพื้นฐานแบบรวมศูนย์ขนาดใหญ่
Grayson: Modularity โดดเด่นเมื่อความคล่องตัวมีน้ำหนักมากกว่าเศรษฐกิจขนาดใหญ่ดิบๆ พูดตามตรง ผมสงสัยว่าขนาดที่แท้จริงเป็นสิ่งจำเป็นเสมอไป – ตัวเร่ง AI ได้เพิ่ม PFLOPS เป็นสองเท่าโดยประมาณทุกๆ หกเดือน ซึ่งบ่งชี้ว่าปริมาณโทเค็นอาจทรงตัวท่ามกลางการขาดแคลนข้อมูล ในขณะที่การประมวลผล RL ผลักดันไปสู่การกระจาย
จากมุมมองด้านต้นทุนและความเสี่ยง Modularity ชนะสำหรับราคาต่ำกว่า 10 ล้านดอลลาร์ต่อ MW โดยประหยัด TCO ได้ 35–60% หลีกเลี่ยงสินทรัพย์ที่ถูกทิ้งร้างมูลค่ากว่า 100 ล้านดอลลาร์จากการเปลี่ยนแปลงทางเทคโนโลยี โครงสร้างพื้นฐานแบบรวมศูนย์ทำงานได้สำหรับ US$/kWh ที่ต่ำเป็นพิเศษในระดับ 100 MW ขึ้นไป แต่มีความเสี่ยงล่วงหน้าที่สูงกว่า ประเภทปริมาณงานก็มีความสำคัญเช่นกัน – Edge Inference และ Distributed RL เช่น Grok 4 สนับสนุน MDCs สำหรับเวลาแฝงต่ำกว่า 10 ms ในขณะที่การฝึกอบรมล่วงหน้าจำนวนมากยังคงต้องการแบนด์วิดท์และความหนาแน่นของ Hyperscale ความสามารถในการปรับขนาดก็มีบทบาทเช่นกัน: เลือกการเพิ่ม Pod ที่เพิ่มขึ้นสำหรับความต้องการที่ผันผวน แบบรวมศูนย์สำหรับการฝึกอบรมปริมาณมากที่คาดการณ์ได้
ในด้านความยั่งยืนและอธิปไตย MDCs สามารถรวมพลังงานหมุนเวียนได้ง่ายกว่า – บรรลุประสิทธิภาพ PUE ที่เหนือกว่าและ CO2 ที่ฝังตัวน้อยกว่า 40–60% – และเปิดใช้งาน Data Locality Modularity สามารถลดคาร์บอนที่ฝังตัวได้ต่ำกว่าการสร้างแบบดั้งเดิม 20–30% ผ่านการผลิตสำเร็จรูป วัสดุรีไซเคิล และของเสียน้อยลง
ภูมิศาสตร์มักจะตัดสินใจ ดังนั้นให้เลือก Modularity แบบ Edge หรือ Regional สำหรับแอปพลิเคชันที่ไวต่อเวลาแฝง แบบรวมศูนย์สำหรับการคำนวณจำนวนมากในพื้นที่ที่อุดมไปด้วยพลังงาน บ่อยครั้งที่โมเดล Hybrid โดยที่ MDCs เสริม Hyperscale สร้างสมดุลที่ดีที่สุด แนวทาง Modular ยังมีข้อได้เปรียบในการปรับใช้ผ่านกระบวนการขออนุญาตที่คล่องตัวW.Media: ด้วยชิปที่แสดงศักยภาพด้านรายได้มากกว่า GPU แบบเดิมๆ ถึง 50 เท่า องค์กรควรป้องกันความเสี่ยงในการเดิมพันของตนในสถาปัตยกรรมซิลิคอนที่แตกต่างกัน (NVIDIA, AMD, Groq, AWS Inferentia) อย่างไรเมื่อ “ผู้ชนะ” ยังไม่ชัดเจน
Grayson: เนื่องจากชิปแบบกำหนดเอง เช่น Groq แสดงให้เห็นถึงขอบด้านรายได้ 50 เท่า และ MI300X ของ AMD ได้รับแรงฉุดในการอนุมาน การป้องกันความเสี่ยงคือการสร้าง Agnosticism ไว้ใน Stack ของคุณ ปรับใช้เฉพาะสำหรับความต้องการเร่งด่วนเท่านั้น เพราะการได้มาซึ่งที่ดินและระยะเวลาการขออนุญาตสามารถขัดขวางการเปลี่ยนแปลงได้ สร้างมาตรฐานการออกแบบเพื่อให้คุณสามารถสลับระหว่างสถาปัตยกรรมได้อย่างรวดเร็ว และตรวจสอบให้แน่ใจว่าคุณมีเส้นทางการอัปเกรดที่ชัดเจน รองรับทั้งไซต์ Greenfield และ Brownfield เพื่อความคล่องตัว ที่ NorthStar MDCs ของเรารองรับ NVIDIA, AMD, Groq และ AWS Inferentia ผ่าน Racks ที่ยืดหยุ่น 30–132 kW+ และความเข้ากันได้ของ ONNX
กลยุทธ์การรีเฟรชควรสอดคล้องกับรอบ 12–18 เดือน และ MDCs ช่วยให้สามารถเปิดตัวได้โดยไม่ต้องหยุดทำงาน กระจายความร่วมมือเพื่อเข้าถึง Beta และโอกาสในการพัฒนาร่วมกัน และตรวจสอบการเปลี่ยนแปลงของระบบนิเวศ การครอบงำ CUDA ของ NVIDIA ในการฝึกอบรมอาจไม่คงอยู่ในการอนุมาน ซึ่งประสิทธิภาพมีความสำคัญมากกว่าความทั่วไป AMD Developer Cloud ที่เปิดตัวในเดือนมิถุนายน 2025 เป็นตัวอย่างที่ดี – การปรับปรุง ROCm 7, MI350X ที่ให้การอนุมานที่ดีขึ้นถึง 35 เท่าเมื่อเทียบกับรุ่นก่อนหน้าในปี 2025 และ MI400X ในปี 2026 เสนอราคาที่แข่งขันได้และระบบนิเวศแบบเปิดที่เทียบได้กับ DGX Cloud ของ NVIDIA สิ่งนี้เร่งทางเลือกสำหรับการอนุมานและสามารถลด TCO ได้โดยการส่งมอบโทเค็นต่อดอลลาร์ได้มากขึ้น 40%W.Media: เมื่อพิจารณาถึงพื้นฐานเรือดำน้ำนิวเคลียร์ของคุณและงานที่ปรึกษาเกี่ยวกับการใช้ SMR และ Micro-Reactors สำหรับปริมาณงาน AI Edge คุณมองว่าพลังงานนิวเคลียร์มีบทบาทอย่างไรในอนาคตของโครงสร้างพื้นฐานศูนย์ข้อมูล โดยเฉพาะอย่างยิ่งสำหรับการปรับใช้ AI ที่สำคัญต่อภารกิจและปราศจากคาร์บอน ผู้ให้บริการ DC ควรรองรับพลังงานหมุนเวียนอย่างไรในระหว่างนี้
Grayson: จากคำสั่งเรือดำน้ำนิวเคลียร์และบทบาทที่ปรึกษา SMR ของผม นิวเคลียร์จะเปลี่ยนแปลงโครงสร้างพื้นฐาน AI ที่ยืดหยุ่นและปราศจากคาร์บอน โดยเฉพาะอย่างยิ่งที่ Edge SMR และ Micro-Reactors สามารถจ่ายไฟให้กับ MDCs ได้ภายในปี 2035 ซึ่งแตกต่างอย่างมากจากการตลาดที่มีอยู่ โดยนำเสนอพลังงานพื้นฐานสำหรับการปรับใช้ที่สำคัญต่อภารกิจและอธิปไตย ตามความเป็นจริง ไทม์ไลน์จะแตกต่างกัน: เครื่องปฏิกรณ์ Gen III+ (พร้อมระบบระบายความร้อนแบบ Passive) สามารถปรับใช้ได้ในขณะนี้ Micro-Reactors อาจแตะระดับได้ภายในปี 2027-2028 ในขณะที่ Gen IV เผชิญกับอุปสรรคในการอนุมัติการออกแบบ การทดสอบ และการจัดหาเชื้อเพลิง
ภายในปี 2035 เราอาจเห็น Racks ขนาด 10 MW เทียบเท่ากับ 3 GW ในปัจจุบันใน PFLOPS ซึ่งขยายการอุทธรณ์ของนิวเคลียร์ ในระหว่างนี้ ให้ถือว่าพลังงานหมุนเวียนเป็นสะพานเชื่อมที่สำคัญ: รวมพลังงานแสงอาทิตย์/ลมสำหรับ 40%+ ของส่วนผสมพลังงาน MDC ซึ่งได้รับการสนับสนุนจากแบตเตอรี่และ Microgrids เพื่อความเสถียร สำรวจก๊าซธรรมชาติเป็นข้อมูลสำรองที่เชื่อถือได้ ศักยภาพของไฮโดรเจนยังคงอยู่ แม้ว่าจะช้ากว่าที่คาดไว้ เส้นทาง Hybrid นี้รับประกันเป้าหมายด้านคาร์บอนโดยไม่กระทบต่อ Uptime เมตริกความยั่งยืนที่เหนือกว่า PUE: เพื่อเสริมพลังงานหมุนเวียน ให้พิจารณาลดคาร์บอนที่ฝังตัวผ่าน Modularity (ต่ำกว่า 20-30%) และประสิทธิภาพการใช้น้ำ – AI อาจต้องการ 4.2-6.6 พันล้านลูกบาศก์เมตรทั่วโลกภายในปี 2027 แต่ระบบระบายความร้อนด้วยของเหลวแบบ Closed-Loop ใน MDCs รีไซเคิลน้ำ 90-95% แก้ปัญหาการบริโภค 1-5 ลิตรต่อการสืบค้นW.Media: คุณกล่าวว่าแนวทางของ Grok 4 ในการเรียนรู้แบบเสริมกำลังแบบกระจายสามารถเปลี่ยนโมเดลการปรับใช้ได้อย่างไร องค์กรควรเตรียมพร้อมสำหรับการเปลี่ยนแปลงที่อาจเกิดขึ้นจากการพึ่งพา Hyperscaler แบบรวมศูนย์ไปสู่สถาปัตยกรรม AI ที่เน้น Edge มากขึ้นและมีการกระจายมากขึ้นได้อย่างไร
Grayson: Grok 4 ถือเป็นการเปลี่ยนแปลงครั้งใหญ่ในความสมดุลของการฝึกอบรม LLM รุ่นก่อนๆ ส่วนใหญ่มุ่งเน้นไปที่การฝึกอบรมล่วงหน้า โดยมีการเรียนรู้แบบเสริมกำลังเล็กน้อยจากผลตอบรับจากมนุษย์ (RLHF) Grok 4 ใช้การประมวลผลทั้งหมดมากกว่า Grok 2 ประมาณ 100 เท่า โดยแบ่งเท่าๆ กันระหว่างการฝึกอบรมล่วงหน้าและ RL และให้ผลลัพธ์ที่ล้ำสมัยในเกณฑ์มาตรฐาน เช่น Humanity’s Last Exam RLHF ปรับปรุงความลึกของการให้เหตุผลของโมเดล และ Multi-Agent RL ของ Grok 4 – ที่ซึ่ง Agent ถกเถียงคำตอบหรือจำลองเส้นทางการให้เหตุผล – ได้แสดงให้เห็นถึงประสิทธิภาพที่แข็งแกร่งสำหรับการใช้งานที่เน้น Edge ที่มีเวลาแฝงต่ำ
แตกต่างจากการฝึกอบรมล่วงหน้า ซึ่งต้องการคลัสเตอร์เสาหิน ปริมาณงาน RL จะขนานกันมากขึ้นและทนทานต่อเวลาแฝง เวิร์กโฟลว์แบ่งออกเป็นสามบทบาท: Rollout Workers (สร้างเอาต์พุต), Evaluation Nodes (ให้คะแนนเอาต์พุต) และ Learner Nodes (อัปเดตพารามิเตอร์) Rollout Workers และ Evaluators สามารถจัดการเวลาแฝงได้หลายสิบถึงหลายร้อยมิลลิวินาที และทำงานบนฮาร์ดแวร์รุ่นเก่าหรือฮาร์ดแวร์ทั่วไป ในขณะที่วิธีการใหม่ๆ เช่น GRPO ลดการสื่อสารระหว่างโหนดและกำจัดโมเดล Critic ที่แยกจากกัน ลด TCO ลง 10–20%
การสาธิตของ INTELLECT-2 แสดงให้เห็นว่าการตั้งค่า RL พารามิเตอร์ 32B ลดเวลาตอบสนองลง 15% และคำขอที่ล้มเหลวลง 24% โมเดลที่มีพารามิเตอร์สูงถึง 10-30B สามารถเรียกใช้ RLHF แบบเต็มบน GPU เดียวได้ ในขณะที่โมเดล 70B+ สามารถกระจายไปทั่วทรัพยากรที่ถูกกว่าโดยใช้เฟรมเวิร์ก เช่น OpenRLHF, TBA และ Ray RLlib
เพื่อเตรียมพร้อม: ลงทุนใน Edge MDC สำหรับการประเมินผล <10ms โดยใช้เฟรมเวิร์ก เช่น OpenRLHF หรือ GRPO; ทดลองใช้เวิร์กโฟลว์ RL แบบกระจายใน Pods ระดับภูมิภาค (อาจลด TCO ลง 35%); ใช้กลยุทธ์ Hybrid โดยเก็บ Hyperscale ไว้สำหรับการฝึกอบรมล่วงหน้า ในขณะที่เปลี่ยน RL/Inference ไปที่ Edge เพื่อประหยัดอธิปไตยและต้นทุน และสร้างเครื่องมือด้วย Federated Learning และการออกแบบที่ไม่ขึ้นกับผู้ขายเพื่อการปรับตัวอย่างรวดเร็วW.Media: ผู้ให้บริการศูนย์ข้อมูลของออสเตรเลียสามารถเรียนรู้บทเรียนอะไรได้บ้างจากวิธีที่อุตสาหกรรมกำลังพัฒนาในสหรัฐอเมริกา
Grayson: ผู้ให้บริการในออสเตรเลียควรใส่ใจกับข้อผิดพลาดในสหรัฐฯ เช่น การสร้างมากเกินไปซึ่งนำไปสู่สินทรัพย์ที่ถูกทิ้งร้าง โดยหันมาใช้โมเดลแบบแยกส่วน/Edge เพื่อความคล่องตัวที่เหนือกว่าแทน ใช้วิธีการแบบแยกส่วนเพื่อการปรับใช้ที่รวดเร็ว ความยั่งยืนที่เพิ่มขึ้นผ่านพลังงานหมุนเวียน และมุ่งเน้นไปที่ RL/Inference—ใช้ Pod ที่เป็นกลางของผู้ขายเพื่อป้องกันความผันผวนของซิลิคอน เน้น AI ที่เป็นอิสระผ่านโครงสร้างพื้นฐาน Edge ในท้องถิ่น
บทเรียนหลักของสหรัฐฯ คือในการพัฒนา AI ที่รวดเร็ว ให้จัดลำดับความสำคัญของความเป็นโมดูลาร์มากกว่ามวล—สร้างระบบที่ปรับเปลี่ยนได้และกระจายตัวเพื่อติดตามซิลิคอนและหลีกเลี่ยงโครงสร้างขนาดใหญ่ที่ล้าสมัย ความยืดหยุ่นคือความได้เปรียบสูงสุด สำหรับผู้ให้บริการในออสเตรเลีย หมายถึงการให้ความสำคัญกับการปฏิบัติตามกฎระเบียบ APRA เพื่อความมั่นคงทางการเงินและการปกป้องข้อมูล ควบคู่ไปกับมาตรฐานสากลเช่น GDPR สำหรับการดำเนินงานข้ามพรมแดน ในการตั้งค่า RL แบบกระจาย ให้รวมการเสริมความแข็งแกร่งทางไซเบอร์—เช่น สถาปัตยกรรม Zero-Trust และ Federated Learning ที่เข้ารหัส—เพื่อป้องกันภัยคุกคามในสภาพแวดล้อม Edge เพื่อให้มั่นใจในความเป็นอิสระโดยไม่ลดทอนประสิทธิภาพW.Media: บทเรียนอะไรที่คุณหวังว่าผู้เข้าร่วมจะได้รับจากการกล่าวสุนทรพจน์ของคุณในซิดนีย์
Grayson: อนาคตของโครงสร้างพื้นฐาน AI นั้นคาดเดาไม่ได้ – พัฒนาความคล่องตัวในการเปลี่ยนแปลงอย่างรวดเร็ว ลดค่าใช้จ่ายในการลงทุนระยะยาวในการปรับใช้ที่การเปลี่ยนแปลงตลาดอย่างรวดเร็วอาจทำให้ผลตอบแทนลดลง ความเป็นโมดูลาร์ไม่ใช่แค่กลยุทธ์เท่านั้น แต่เป็นหลักการสำหรับการเติบโตท่ามกลางความไม่แน่นอนรายละเอียดกิจกรรม: Sydney International Convention Centre, 21 สิงหาคม 2025, 8:00 น.–20:30 น.
ลงทะเบียนที่นี่: https://clouddatacenter.events/events/sydney-cloud-datacenter-convention-2025/