การออกแบบศูนย์ข้อมูลใหม่สำหรับยุค AI

บางครั้งการเปลี่ยนแปลงเกิดขึ้นอย่างรวดเร็วจนตามไม่ทัน เราต้องยอมผ่อนปรนหรือเผชิญกับอุปสรรคที่ยากลำบาก GPUs กำหนดจังหวะ เมื่อ AI เริ่มเข้ามาครอบครองโลก แต่ศูนย์ข้อมูลกลับประสบปัญหา บางแห่งไม่สามารถตอบสนองความต้องการด้านระยะเวลาในการวางตลาดได้ ในขณะที่บางแห่งต้องจ่ายราคาแพง

ความแตกต่างอย่างมากในการสร้างโครงสร้างพื้นฐาน AI สามารถเห็นได้หากเรามองย้อนกลับไปเมื่อไม่กี่ปีที่ผ่านมา หรือแม้แต่เปรียบเทียบกับภาระงาน HPC มาตรฐานในปัจจุบัน แม้จะมีพลังงานมาก แต่การติดตั้งทั่วไปที่ 20 ถึง 30 กิโลวัตต์ก็ไม่เพียงพอที่จะรองรับปริมาณงาน AI อีกต่อไป

เหตุใดศูนย์ข้อมูลในปัจจุบันจึงถึงขีดจำกัด

ด้วย B200 รุ่นล่าสุดที่เป็นที่นิยม ซีรีส์ GB ที่ใช้พลังงาน 100–130 กิโลวัตต์ต่อแร็ค โลกกำลังเร่งรีบเพื่อตอบสนองเกณฑ์มาตรฐานใหม่: 600 กิโลวัตต์ Rubin Ultra ขณะนี้เรากำลังพิจารณาช่วงโหลดตั้งแต่ 20 กิโลวัตต์ถึง 600 กิโลวัตต์ต่อตารางเมตร ซึ่งโดยพื้นฐานแล้วคือการบีบอัดศูนย์ข้อมูลขนาด 15 ถึง 20 เมกะวัตต์ให้เหลือเพียง 1,000 ตร.ม. ของพื้นที่สีขาว

จากมุมมองด้านอสังหาริมทรัพย์หรือสิ่งแวดล้อม นี่อาจดูเหมือนเป็นการเปลี่ยนแปลงในเชิงบวก แต่นำมาซึ่งความท้าทายทางวิศวกรรมและการดำเนินงานที่ร้ายแรง ซึ่งเป็นสิ่งที่ทำให้ทีมปฏิบัติการและโครงการต้องนอนไม่หลับ นี่คือความท้าทายบางประการ

  • แรงดันโหลดหรือการรั่วไหล:

    แรงดันโหลดที่แนะนำสำหรับแร็ค 100 กิโลวัตต์คือสองถึงสามร้อยกิโลกรัมต่อตารางเมตร นี่หมายความว่าเป็นการยากที่จะออกแบบท่อไรเซอร์ที่สามารถรองรับน้ำหนักดังกล่าวได้ เป็นผลให้มักจะติดตั้งท่อระบายความร้อนเหนือพื้นหรือเหนือแร็คเพื่อเป็นทางออก แต่สิ่งนี้ไม่ใช่ทางออกที่ปรับเปลี่ยนได้ในระยะยาว การแก้ปัญหาหนึ่งมักจะสร้างปัญหาอื่น และการรักษาเวลาทำงานของศูนย์ข้อมูลให้พร้อมใช้งานอย่างต่อเนื่องจึงกลายเป็นความท้าทายที่แท้จริง

  • การขยายศูนย์ข้อมูล:

    เมื่อโครงสร้างพื้นฐานมีความหนาแน่นมากขึ้น ศูนย์ข้อมูลขนาดใหญ่จะไม่สามารถใช้ประโยชน์จากที่ดินได้อย่างเต็มศักยภาพ อีกคนหนึ่งอาจคิดว่านี่หมายถึงความหนาแน่นในการติดตั้งที่สูงขึ้นภายในพื้นที่ขนาดเล็ก แต่ไม่ใช่กรณีนั้น ข้อบังคับของรัฐบาลและข้อจำกัดของวิศวกรรมไฟฟ้าจำกัดปริมาณไฟฟ้าที่สามารถส่งไปยังไซต์เดียวได้ ในมุมมองของฉัน “ประสิทธิภาพการใช้ที่ดิน” ของศูนย์ข้อมูลกำลังลดลงทุกวัน

  • การวางแผนโครงการ:

    ขณะนี้ศูนย์ข้อมูลต้องการโครงสร้างพื้นฐานทางกลและโยธาที่แข็งแกร่งซึ่งสามารถรองรับโซลูชันใดก็ได้ อย่างไรก็ตาม การออกแบบสำหรับช่วงโหลดความจุที่หลากหลายไม่ใช่เรื่องที่เหมาะสมทางเศรษฐกิจ งบประมาณเพิ่มขึ้นอย่างมาก และ ROI กลายเป็นที่น่าสงสัย โดยเฉพาะอย่างยิ่งเมื่อการติดตั้งความจุต่ำครอบครองพื้นที่ที่มีสเปคสูงเดียวกัน

  • ความล้าสมัยของฮาร์ดแวร์:

    ฮาร์ดแวร์ที่ล้าสมัยทำให้การวางแผนโครงการยากยิ่งขึ้น ด้วยระบบที่มีอายุการใช้งานเพียงสองถึงสามปี ศูนย์ข้อมูลจึงกำลังประสบปัญหาเดิมอยู่แล้ว สิ่งที่แย่กว่านั้นคือระบบที่กำลังจะมาถึงไม่สามารถใช้งานร่วมกับระบบเก่าได้ ทำให้ไม่มีที่ว่างสำหรับการนำกลับมาใช้ใหม่หรือการปรับเปลี่ยน

การคิดใหม่เกี่ยวกับสแต็กศูนย์ข้อมูล

เมื่อพิจารณาถึงความท้าทายเหล่านี้ทั้งหมด ถึงเวลาที่ต้องคิดใหม่และปรับสถาปัตยกรรมใหม่สำหรับเสาหลักสี่ประการของศูนย์ข้อมูลทั่วไป:

  • โทรคมนาคม:

    เครือข่ายศูนย์ข้อมูลในอนาคตจะมีความหนาแน่นสูงเป็นพิเศษ NVIDIA SuperPod แต่ละตัวอาจต้องใช้สายไฟเบอร์ออปติกยาว 22 กม. คาดว่าจะมีไซด์คาร์ขนาดเท่าแร็คเดียวและสายเคเบิลมากถึง 5,000 เส้นบนบอร์ด Rubin ที่มี PCB 72 ชั้น คุณ Meet Me Rooms พร้อมที่จะรองรับสิ่งนี้หรือไม่?

  • ไฟฟ้า:

    พลังงานคือเส้นเลือดหล่อเลี้ยงของทุกระบบ แร็คกำลังมาถึงพร้อมกับพลังงานในตัว และศูนย์ข้อมูลกำลังก้าวข้ามการตั้งค่า N หรือ 2N แบบเดิมๆ ขณะนี้ระบบต้องการการเชื่อมต่อจำนวนคี่ ซึ่งทำให้การสำรองข้อมูลไม่สามารถคาดเดาได้ ไม่ว่าจะเป็นสำหรับ PDU, บัสบาร์, ATS หรือหม้อแปลง N(x)

  • สถาปัตยกรรม:

    แต่ละรุ่นใหม่นำมาซึ่งการเปลี่ยนแปลง: ช่องระบายสายเคเบิล เครือข่ายของเหลวระบายความร้อน ข้อควรพิจารณาในการรับน้ำหนัก ทุกองค์ประกอบต้องได้รับการพิจารณา และความล้มเหลวเพียงครั้งเดียวไม่ควรส่งผลกระทบต่อส่วนที่เหลือ ศูนย์ข้อมูลต้องปรับขนาดจาก HPC ไปสู่ AI ยุคถัดไปโดยมีการออกแบบใหม่น้อยที่สุด

  • กลไก:

    ไรเซอร์ที่สามารถรองรับน้ำหนักสองถึงสามร้อยกิโลกรัมขึ้นไปในอนาคต พื้นที่ Plennum สำหรับสายไฟและสายเคเบิลเครือข่ายขนาดใหญ่ และค่าเผื่อสำหรับโครงสร้างพื้นฐานการระบายความร้อนที่กว้างขวางเป็นความท้าทายในแต่ละวันสำหรับทีมโครงการ ทุกแง่มุมของวิศวกรรมทางกายภาพต้องได้รับการพิจารณา และต้องเป็นไปตามข้อกำหนดทางกลทั้งหมด

 

*ผู้เขียนจัดการการดำเนินงานและกลยุทธ์แบบ End-to-End สำหรับ Compute Nordic เขามีประสบการณ์ประมาณ 13 ปีกับผู้เล่น DC รายใหญ่ต่างๆ ในอินเดียและนอร์เวย์

**บทความนี้ปรากฏครั้งแรกในนิตยสาร Cloud & Datacenters ฉบับที่ 9 ของ W.Media คลิกที่ภาพด้านล่างและไปที่หน้า 22-23 เพื่ออ่านเรื่องราว

Author Info:
Picture of Deborah Grey
Deborah Grey
Share This Article
Related Posts
Other Popular Posts