変化があまりにも急速に起こり、ついていくのが難しいことがあります。譲歩するか、困難な障害に直面しなければなりません。AIが世界を席巻し始めたとき、GPUがペースを設定しましたが、データセンターは苦戦しました。市場投入までの要求を満たせないものもあれば、高い代償を払うものもありました。
AIインフラの構築における明確な格差は、数年前を振り返ったり、今日の標準的なHPC負荷と比較したりするとわかります。その能力にもかかわらず、典型的な20〜30kWのセットアップでは、AIワークロードをサポートするのに十分ではありません。
今日のデータセンターが限界に達している理由
最新の人気モデルであるB200(GBシリーズ)では、ラックあたり100〜130kWを使用しており、世界は新しいベンチマークである600kWのRubin Ultraを満たすために競争しています。現在、1平方メートルあたり20kWから600kWの負荷範囲を見ています。これは、実質的に15〜20MWのデータセンターをわずか1,000平方メートルのホワイトスペースに圧縮することになります。
不動産または環境の観点から見ると、これは前向きな変化のように思えるかもしれません。しかし、それは深刻なエンジニアリングおよび運用上の課題をもたらします。運用チームとプロジェクトチームを夜も眠らせない課題です。以下にいくつかの課題を示します。
-
負荷張力または漏れ:
100kWラックの推奨負荷張力は、1平方メートルあたり200〜300キロです。これは、そのような重量を支えることができるライザーを設計することが難しいことを意味します。その結果、冷却パイプは、応急処置として床の上またはラックの上に設置されることがよくあります。しかし、これは長期的な適応可能なソリューションではありません。1つの問題を解決すると、別の問題が発生しやすく、データセンターの稼働時間を維持することが真の課題になります。
-
データセンターの拡張:
インフラストラクチャがより高密度になるにつれて、大規模なデータセンターは土地を最大限に活用できなくなります。これは、より小さなフットプリント内でより高い展開密度を意味すると考えるかもしれませんが、そうではありません。政府の規制と電気工学の限界により、単一のサイトに供給できる電力量が制限されます。私の見解では、データセンターの「土地利用効率」は日々低下しています。
-
プロジェクト計画:
データセンターは現在、あらゆるソリューションをサポートできる強力な機械的および土木インフラストラクチャを必要としています。ただし、幅広い容量負荷に対応するように設計することは、経済的に理想的ではありません。予算は大幅に増加し、特に低容量の展開が同じハイスペックなスペースを占有する場合、ROIは疑問視されます。
-
ハードウェアの陳腐化:
時代遅れのハードウェアは、プロジェクト計画をさらに困難にします。システムはわずか2〜3年しか持続しないため、データセンターはすでに以前の問題に苦労しています。さらに悪いことに、今後のシステムは古いシステムと互換性がないため、再利用や適応の余地はありません。
データセンタースタックの再考
これらの課題を考えると、典型的なデータセンターの4つの主要な柱を再考し、再構築する時期が来ています。
-
電気通信:
将来のデータセンターネットワークは、超高密度になります。各NVIDIA SuperPodは、22kmの光学系を必要とする場合があります。シングルラックのサイズで最大72層PCBを備えたRubinボードに最大5,000本のケーブルが搭載されることを想定してください。あなたの ミートミールーム はこれをサポートする準備ができていますか?
-
電気:
電力はあらゆるシステムの生命線です。ラックは内蔵電源で到着し、データセンターは従来のNまたは2Nセットアップを超えて移行しています。システムは現在、奇数の接続を必要とするため、PDU、バスバー、ATS、またはN(x)変圧器のいずれであっても、冗長性が予測できなくなります。
-
アーキテクチャ:
新しいイテレーションごとに、ケーブルの排気、冷却液ネットワーク、耐荷重の考慮事項など、変更が加えられます。すべてのコンポーネントを考慮する必要があり、単一の障害が他のコンポーネントに影響を与えてはなりません。データセンターは、最小限の再設計でHPCから次世代AIに拡張する必要があります。
-
機械:
将来、200〜300キロ以上の重量を支えることができるライザー、大量の電力およびネットワークケーブル用のプレナムスペース、および大規模な冷却インフラストラクチャの余裕は、プロジェクトチームにとって日常的な課題です。物理エンジニアリングのあらゆる側面を考慮し、すべての機械的要件を満たす必要があります。
*著者は、Compute Nordicのエンドツーエンドの運用と戦略を担当しています。彼は、インドとノルウェーのさまざまな主要DCプレーヤーで約13年の経験があります。
**この記事は、W.MediaのCloud & Datacenters誌の第9号に最初に掲載されました。下の画像をクリックして、22〜23ページにアクセスして記事をお読みください。