Thiết kế lại trung tâm dữ liệu cho kỷ nguyên AI

Đôi khi sự thay đổi diễn ra quá nhanh khiến chúng ta khó theo kịp, chúng ta phải nhượng bộ hoặc đối mặt với những trở ngại khó khăn. GPU đặt ra tốc độ, khi AI bắt đầu chiếm lĩnh thế giới, nhưng các trung tâm dữ liệu lại gặp khó khăn – một số không thể đáp ứng nhu cầu về thời gian đưa ra thị trường, trong khi những trung tâm khác phải trả giá đắt.

Có thể thấy sự khác biệt rõ rệt trong việc xây dựng cơ sở hạ tầng AI nếu chúng ta nhìn lại một vài năm hoặc thậm chí so sánh nó với tải HPC tiêu chuẩn ngày nay. Mặc dù có sức mạnh, nhưng một thiết lập điển hình từ 20 đến 30 kW không còn đủ để hỗ trợ khối lượng công việc AI.

Tại sao các trung tâm dữ liệu ngày nay đang đạt đến giới hạn của chúng

Với dòng B200 mới nhất phổ biến, dòng GB, sử dụng 100–130 kW cho mỗi giá, thế giới đang chạy đua để đáp ứng chuẩn mực mới: Rubin Ultra 600 kW. Hiện chúng ta đang xem xét phạm vi tải từ 20 kW đến 600 kW trên mỗi mét vuông – về cơ bản là nén một trung tâm dữ liệu 15 đến 20 MW chỉ trong 1.000 mét vuông không gian trắng.

Từ quan điểm bất động sản hoặc môi trường, điều này có vẻ là một sự thay đổi tích cực. Nhưng nó mang lại những thách thức nghiêm trọng về kỹ thuật và vận hành – những thách thức khiến các nhóm vận hành và dự án phải thức đêm. Dưới đây là một số thách thức.

  • Độ căng tải hoặc rò rỉ:

    Độ căng tải được khuyến nghị cho các giá 100 kW là hai đến ba trăm kg trên một mét vuông. Điều này đơn giản có nghĩa là rất khó để thiết kế các ống nâng có thể chịu được trọng lượng như vậy. Do đó, các ống làm mát thường được lắp đặt phía trên sàn hoặc phía trên các giá đỡ như một giải pháp thay thế. Nhưng đây không phải là một giải pháp lâu dài, có thể thích ứng. Giải quyết một vấn đề có xu hướng tạo ra một vấn đề khác và việc duy trì thời gian hoạt động của trung tâm dữ liệu trở thành một thách thức thực sự.

  • Mở rộng trung tâm dữ liệu:

    Khi cơ sở hạ tầng trở nên dày đặc hơn, các trung tâm dữ liệu lớn không còn có thể sử dụng đất một cách tối đa. Người ta có thể cho rằng điều này có nghĩa là mật độ triển khai cao hơn trong một diện tích nhỏ hơn – nhưng không phải vậy. Các quy định của chính phủ và giới hạn của kỹ thuật điện hạn chế lượng điện có thể được cung cấp cho một địa điểm duy nhất. Theo quan điểm của tôi, “Hiệu quả sử dụng đất” của các trung tâm dữ liệu đang giảm dần theo từng ngày.

  • Lập kế hoạch dự án:

    Các trung tâm dữ liệu hiện cần cơ sở hạ tầng cơ khí và dân dụng mạnh mẽ có khả năng hỗ trợ mọi giải pháp. Tuy nhiên, việc thiết kế cho một loạt các tải công suất không phải là lý tưởng về mặt kinh tế. Ngân sách tăng lên đáng kể và ROI trở nên đáng ngờ, đặc biệt khi các triển khai công suất thấp chiếm cùng một không gian có thông số kỹ thuật cao.

  • Phần cứng lỗi thời:

    Phần cứng lỗi thời khiến việc lập kế hoạch dự án trở nên khó khăn hơn. Với các hệ thống chỉ tồn tại từ hai đến ba năm, các trung tâm dữ liệu đã phải vật lộn với các vấn đề trước đó. Tệ hơn nữa, các hệ thống sắp tới không tương thích với các hệ thống cũ, không để lại chỗ cho việc tái sử dụng hoặc điều chỉnh.

Suy nghĩ lại về ngăn xếp trung tâm dữ liệu

Với tất cả những thách thức này, đã đến lúc suy nghĩ lại và tái cấu trúc bốn trụ cột chính của một trung tâm dữ liệu điển hình:

  • Viễn thông:

    Các mạng trung tâm dữ liệu trong tương lai sẽ siêu dày đặc. Mỗi NVIDIA SuperPod có thể yêu cầu 22 km quang học. Hãy chờ đợi sidecar có kích thước bằng một giá duy nhất và tối đa 5.000 cáp trên bo mạch Rubin với PCB 72 lớp. Các Phòng gặp mặt của bạn đã sẵn sàng hỗ trợ điều này chưa?

  • Điện:

    Điện là huyết mạch của mọi hệ thống. Các giá đang đến với nguồn điện tích hợp và các trung tâm dữ liệu đang vượt ra ngoài các thiết lập N hoặc 2N truyền thống. Các hệ thống hiện yêu cầu số lượng kết nối lẻ, điều này khiến khả năng dự phòng trở nên khó đoán, cho dù đối với PDU, busbar, ATS hoặc máy biến áp N(x).

  • Kiến trúc:

    Mỗi lần lặp lại mới đều mang lại những thay đổi: ống xả cáp, mạng lưới chất lỏng làm mát, các cân nhắc về chịu tải. Mọi thành phần phải được tính đến và không một lỗi đơn lẻ nào được ảnh hưởng đến phần còn lại. Các trung tâm dữ liệu phải mở rộng quy mô từ HPC sang AI thế hệ tiếp theo với thiết kế lại tối thiểu.

  • Cơ khí:

    Các ống nâng có khả năng hỗ trợ từ hai đến ba trăm kg trở lên trong tương lai, không gian plenum cho cáp nguồn và mạng lớn và các khoản trợ cấp cho cơ sở hạ tầng làm mát rộng rãi là những thách thức hàng ngày đối với các nhóm dự án. Mọi khía cạnh của kỹ thuật vật lý phải được xem xét và đáp ứng tất cả các yêu cầu cơ học.

 

*Tác giả xử lý các hoạt động và chiến lược đầu cuối cho Compute Nordic. Ông có khoảng 13 năm kinh nghiệm với nhiều công ty DC lớn ở Ấn Độ và Na Uy.

**Bài viết này lần đầu tiên xuất hiện trong Số 9 của tạp chí Cloud & Datacenters của W.Media. Nhấp vào hình ảnh bên dưới và chuyển đến trang 22-23 để đọc câu chuyện.

Publish on W.Media
Author Info:
Picture of Deborah Grey
Deborah Grey
Share This Article
Related Posts
Other Popular Posts