シリコンは鉄よりも速く動き、データセンターはそれに遅れないようにする必要がある

原子力高速攻撃型潜水艦の指揮から、AWS、Meta、Oracleでのハイパースケールデータセンタープロジェクトの主導まで、トニー・グレイソンは、AIインフラストラクチャに、精度、回復力、技術的専門知識のユニークな組み合わせをもたらします。

現在、Northstar Federal & Northstar Enterprise & Defenseの社長兼ゼネラルマネージャーであるグレイソン(上記、右)が、 シドニーで開催されるCloud & Datacenter Convention 2025で基調講演を行い、強化学習(RL)コンピューティングとエージェントAIが分散コンピューティングへの移行をどのように推進しているかを検証します。

W.Mediaは、インフラストラクチャ設計、迅速な展開、持続可能性、および通信事業者とクラウド事業者への将来の要求に関して、これらの開発が意味することについて彼と話し合いました。W.Media:数百万件の契約を締結する企業を構築し、拡大した経験から、今日のAIインフラストラクチャ投資を計画している組織にどのようなアドバイスがありますか?今後3〜5年間でピボット、撤退、または技術シフトに対する柔軟性を維持するために、これらの投資をどのように構成する必要がありますか?

グレイソン: NorthStarおよびEdgePoint Systemsの拡大における私の経験から、AIの急速な変化に対応するには、俊敏性をすべてのレイヤーに組み込む必要があります。まず、モノリシックなビルドではなく、モジュール式で段階的なビルドを使用します。モジュール式データセンター(MDC)は、ハイパースケールの場合の18〜24か月および1MWあたりUS$12〜15mと比較して、3〜9か月で1MWあたり〜US$7〜9m(米国/オーストラリアの平均)で展開されます。これにより、ハードウェアの更新サイクルによる過剰なプロビジョニングと座礁した容量が回避されます。設計をレゴブロックと考えてください。大量カスタマイズのためにコンポーネントを標準化しながら、保守性を確保します。

MDCは、6〜18か月の許可の遅延を回避するのにも役立ちます。プレハブビルドは、現場のタイムラインを50〜70%短縮し、完全な環境レビューを回避できるため、PJMの数年間のバックログのように、送電網のキューの遅延を回避するために、変電所の近くのブラウンフィールドの改造やエッジサイトが可能になります。次に、ベンダーに依存しない、ハイブリッド/マルチクラウドアーキテクチャを選択して、ロックインを回避します。これにより、NVIDIA、AMD、Groq、およびONNXのような標準に対応できます。MDCのOpexリースを検討して、撤退やピボットをサポートします。

第3に、分散型強化学習(RL)やエージェントAIのような新しいテクノロジーに20〜30%の予算を割り当てます。RLはレイテンシを10ms未満に短縮でき、McKinseyによると、エージェントAIは2030年までにUS$500億(45%のCAGR)に達する可能性があります。「what-if」シナリオをマッピングし、2030年までにAI支出の60〜80%(US$2540億、17.5%のCAGR)と予測される推論負荷の高いワークロードを計画するために、シナリオ計画フレームワークを使用します。最後に、すべての投資をROIにリンクします。MDCは、構築コストを40〜60%削減し、より迅速な展開を通じて収益を加速できます。テクノロジーだけでは収益は生まれません。適応可能なインフラストラクチャが収益を生み出すことを忘れないでください。W.Media:「シリコンは鋼鉄やコンクリートよりも速く動く」というあなたの強調を考えると、組織は長期的なインフラストラクチャ投資と、シリコンが12〜24か月ごとに更新されるという現実をどのように両立させるべきでしょうか?このパラドックスに最適な計画フレームワークは何ですか?

グレイソン: 「シリコンは鋼鉄やコンクリートよりも速く動く」というフレーズは、AIインフラストラクチャにおける最大の課題を要約しています。ハードウェアは12〜24か月ごとに更新されますが、これは従来のデータセンターの構築サイクルよりもはるかに速く、注意しないと数百万ドルの座礁資産が残る可能性があります。重要なのは、インフラストラクチャを単一世代のシリコンから切り離すことです。これは、ルービン時代に入るにつれて、さらに重要になっています。電力密度は、HopperまたはGrace Blackwellシステムの場合、ラックあたり800kWから1.5MWに上昇しており、これらのラックは今日の2倍の重さになる可能性があります。

私が使用した1つのアプローチは、インフラストラクチャをサイト全体を中断することなくアップグレードできるポッドに分割する、いわゆる「モジュール式更新サイクル」です。NorthStarでは、当社のモジュール式データセンターは30〜132kWのラックをサポートし、高度な液体冷却を使用しているため、必要に応じて新しいシリコンを出し入れできます。18〜24か月の期間で計画を立てますが、モジュール性がもたらす20〜30%のopexの節約を考慮して、5年間のライフサイクルでモデル化します。この不確実性を乗り越えるために、シリコン価格の変動にはモンテカルロシミュレーションのようなフレームワークを使用し、更新の影響には感度分析を使用します。

競争環境も変化しています。NVIDIAはCUDAを介してトレーニングを支配していますが、AMDのMI400Xは推論に挑戦しており、Groqのようなカスタムシリコンはさらに最適化する可能性があります。(Grok 4のように)RLトレーニングは分散コンピューティングを支持し、集中化のニーズを軽減します。

私たちは今日GPUに焦点を当てていますが、将来はCompute Express Link(CXL)を備えた分離されたアーキテクチャであり、CPUとGPUがオンデマンドでメモリをプールできます。従来のGPUはHBMを各チップに接続するため、座礁した容量が発生し、スイッチのコストが30%高くなります。CXLはワットあたりのパフォーマンスを30%以上向上させ、総コストを20〜30%削減します。CXLプールされたアクセラレータを実行しているMDCは、GPUのみのセットアップよりもスループットが25%向上し、ONNXのようなオープンフレームワークはベンダーロックインの回避に役立つことを確認しました。

GPU、分散型RL、量子(特殊なシールド施設が必要になる可能性あり)などの各テクノロジーの波は、異なるインフラストラクチャを必要とします。20〜30年の顧客ライフサイクルという古いデータセンターの前提はなくなりました。AIの動きは速すぎるため、3〜5年の陳腐化リスクを考慮して設計する必要があります。モジュール性と柔軟なopexモデルにより、鋼鉄とコンクリートをケージではなく基盤として機能させることができます。W.Media:最近の記事で、大規模なAIインフラストラクチャを構築する前に、「どのように収益を上げるのか」を業界に問うよう促しました。予測不可能なAIワークロード要件を計画する際に、組織はどのような特定の財務指標とROIモデルを使用する必要がありますか?

グレイソン: 課題は次のとおりです。クラウドサービスプロバイダーまたはネオクラウドでない限り、言語モデルは本質的に収益化されません。収益は推論にあります。設備投資は重要ですが、opexが持続可能性を決定します。ワークロードの予測不可能性の中で計画するには、価値創造に直接結び付く指標に焦点を当てる必要があります。

追跡する主な指標には、推論あたりのTCOの優先順位付けが含まれます。Groq LPUのようなカスタムシリコンを介して30〜70%の削減を目標とします。これにより、最大50倍の収益を生み出すことができます(H100相当の場合、ラックあたり1日あたりUS$310に対して、ラックあたり1日あたりUS$15,500を考えます)。MDCの場合は1.2未満、従来のサイトの場合は1.5以上の電力使用効率でPUEを監視します。1MWあたりの設備投資を追跡します。モジュール式ビルドは、従来のアプローチよりも大幅なコスト上の利点を提供します。柔軟性のないビルドの場合、座礁した容量のリスクに注意してください。これはUS$1億〜5億に達する可能性があります。

推論スループットを忘れないでください。Groqは100,000トークン/秒以上を配信できますが、H100では約2,000トークン/秒です。また、トークン/秒/kWで測定されるエネルギー効率も忘れないでください。

ROIモデルについては、いわゆる「段階的回収」アプローチを実装します。5年間で内部収益率を計算します。NVIDIA B200 GPUを搭載した1MWのMDCでは25%以上が必要です。これにより、AIサービスからUS$340万のマージンが得られる可能性があります。将来のキャッシュフローを割引するには、正味現在価値を使用し、2030年までにUS$2540億に達すると予測される推論市場の17.5%のCAGRを考慮します。機会費用を考慮します。より迅速なモジュール式展開により、遅延した収益で数百万ドルを節約できます。

不確実性については、予測される60〜80%の推論優位性やシリコン価格の変動など、ワークロードのシフトに関するモンテカルロシミュレーションを活用します。H100の料金はUS$4/時間から約US$0.9/時間に低下しました。

シナリオベースのROIは不可欠です。ベースケースは集中トレーニングを想定し、楽観的なケースはコストを35%削減する分散型RLを考慮し、悲観的なケースは20%の容量座礁を考慮します。常にすべてを収益の基本に結び付けます。トークンあたりのドルまたはクエリあたりのドルの収量はいくらですか?カスタムチップは、推論あたりのコストが10〜25倍優れていることが多く、商品化に対する確かなヘッジになります。W.Media:従来の大規模キャンパスアプローチよりもモジュール式データセンターを強く提唱してきました。組織は、モジュール化が理にかなっている場合と、規模の経済がより大規模で集中化されたインフラストラクチャを支持する場合を判断するために、どのような主要な意思決定基準を使用する必要がありますか?

グレイソン: 俊敏性が生の規模の経済よりも重要な場合、モジュール性は優れています。率直に言って、私は純粋な規模が常に必要であることに懐疑的です。AIアクセラレータは、約6か月ごとにPFLOPSをほぼ2倍にしており、データ不足の中でトークン量が頭打ちになる可能性があることを示唆しています。一方、RLコンピューティングは分散化に向かっています。

コストとリスクの観点から見ると、モジュール性は1MWあたりUS$1000万未満で35〜60%のTCO削減を実現し、技術シフトによるUS$1億以上の座礁資産を回避できます。集中化されたインフラストラクチャは、100MW以上の規模で超低US$/kWhで機能しますが、より高い先行リスクを伴います。ワークロードの種類も重要です。エッジ推論と分散型RL(Grok 4など)は、10ms未満のレイテンシでMDCを支持しますが、大規模な事前トレーニングでは、依然としてハイパースケールの帯域幅と密度が必要です。スケーラビリティも役割を果たします。不安定な需要の場合は段階的なポッドの追加を選択し、予測可能で大量のトレーニングの場合は集中化を選択します。

持続可能性と主権に関しては、MDCは再生可能エネルギーをより簡単に統合し、優れたPUEパフォーマンスと40〜60%少ない埋め込みCO2を実現し、データのローカリティを可能にします。モジュール性は、プレハブ、リサイクル素材、および廃棄物の削減により、従来のビルドよりも20〜30%低い埋め込み炭素を実現できます。

多くの場合、地理によって決定されるため、レイテンシに敏感なアプリケーションにはエッジまたはリージョナルモジュール化を選択し、エネルギーが豊富な地域でのバルクコンピューティングには集中化を選択します。多くの場合、ハイパースケールを補完するMDCを備えたハイブリッドモデルが最適なバランスを実現します。モジュール式アプローチは、合理化された許可プロセスを通じて展開の利点も提供します。W.Media:チップが従来のGPUよりも50倍以上の収益の可能性を示している場合、「勝者」がまだ不明な場合、組織はさまざまなシリコンアーキテクチャ(NVIDIA、AMD、Groq、AWS Inferentia)全体でどのように賭けをヘッジする必要がありますか?

グレイソン: Groqのようなカスタムチップが50倍の収益エッジを示し、AMDのMI300Xが推論で勢いを増しているため、ヘッジはスタックに不可知論を構築することです。土地の取得と許可のタイムラインがピボットのボトルネックになる可能性があるため、当面のニーズのためにのみ展開します。アーキテクチャ間をすばやく交換できるように設計を標準化し、明確なアップグレードパスがあることを確認します。汎用性のために、グリーンフィールドサイトとブラウンフィールドサイトの両方をサポートします。NorthStarでは、当社のMDCは、柔軟な30〜132kW+ラックとONNX互換性を通じて、NVIDIA、AMD、Groq、AWS Inferentiaに対応しています。

更新戦略は12〜18か月のサイクルに合わせる必要があり、MDCはダウンタイムなしでロールアウトできます。ベータ版と共同開発の機会へのアクセスを得るためにパートナーシップを多様化し、エコシステムのシフトを監視します。トレーニングにおけるNVIDIAのCUDAの優位性は、効率が一般性を上回る推論では保持されない可能性があります。AMDのDeveloper Cloud(2025年6月に開始)は良い例です。ROCm 7の機能強化、2025年に以前の世代よりも最大35倍優れた推論を提供するMI350X、および2026年のMI400Xは、NVIDIAのDGX Cloudに匹敵する積極的な価格設定とオープンなエコシステムを提供します。これにより、推論の代替手段が加速され、1ドルあたり40%多くのトークンを提供することで、TCOを削減できます。W.Media:原子力潜水艦の経歴と、エッジAIワークロードにSMRとマイクロ原子炉を使用することに関するアドバイザリー業務を考えると、データセンターインフラストラクチャの将来、特にミッションクリティカルでカーボンフリーのAI展開において、原子力発電はどのような役割を果たすと思いますか?DCオペレーターは、当面、再生可能エネルギーをどのように捉えるべきでしょうか?

グレイソン: 私の原子力潜水艦の指揮とSMRアドバイザリーの役割から、原子力は、特にエッジにおいて、回復力のあるカーボンフリーのAIインフラストラクチャにとって変革をもたらすでしょう。SMRとマイクロ原子炉は、2035年までにMDCに電力を供給する可能性があり、これは市場に出回っているマーケティングとは大きく異なり、主権的でミッションクリティカルな展開のためのベースロードエネルギーを提供します。現実的には、タイムラインは異なります。(パッシブ冷却を備えた)第3世代+原子炉は現在展開可能であり、マイクロ原子炉は2027〜2028年までに規模に達する可能性がありますが、第4世代は設計承認、テスト、燃料調達でハードルに直面しています。

2035年までに、今日の3GWに相当する10MWのラックが見られる可能性があり、PFLOPSが拡大し、原子力の魅力が高まります。それまでの間、再生可能エネルギーを重要な架け橋として扱います。MDCエネルギーミックスの40%以上に太陽光/風力を統合し、安定性のためにバッテリーとマイクログリッドで強化します。信頼できるバックアップとして天然ガスを検討してください。水素の可能性は残っていますが、予想よりも遅れています。このハイブリッドパスにより、稼働時間を損なうことなくカーボン目標を確実に達成できます。PUEを超える持続可能性指標:再生可能エネルギーを補完するために、モジュール性(20〜30%低い)による埋め込み炭素削減と水効率を検討してください。AIは2027年までに世界中で42〜66億立方メートルの需要がある可能性がありますが、MDCの閉ループ液体冷却は水の90〜95%をリサイクルし、クエリあたりの1〜5リットルの消費量に対応します。W.Media:Grok 4の分散型強化学習へのアプローチが展開モデルを変える可能性があると述べました。組織は、集中型ハイパースケーラーの依存から、より分散されたエッジ中心のAIアーキテクチャへの潜在的なシフトにどのように備えるべきでしょうか?

グレイソン: Grok 4は、トレーニングのバランスに大きな変化をもたらしました。以前のLLMは、主に事前トレーニングに焦点を当てており、人間のフィードバック(RLHF)からのわずかな強化学習のみでした。Grok 4は、Grok 2よりも約100倍多くの総計算量を使用し、事前トレーニングとRLの間で均等に分割し、Humanity’s Last Examのようなベンチマークで最先端の結果を提供しました。RLHFはモデルの推論の深さを向上させ、Grok 4のマルチエージェントRL(エージェントが回答について議論したり、推論パスをシミュレートしたりする)は、低レイテンシのエッジ中心のユースケースで強力なパフォーマンスを示しています。

モノリシッククラスタを必要とする事前トレーニングとは異なり、RLワークロードはより並列的で、レイテンシに対する耐性が高くなっています。ワークフローは、ロールアウトワーカー(出力を生成)、評価ノード(出力をスコアリング)、および学習者ノード(パラメータを更新)の3つの役割に分割されます。ロールアウトワーカーと評価者は、数十から数百ミリ秒のレイテンシを処理でき、古いまたはコモディティハードウェアで実行できますが、GRPOのような新しい方法は、ノード間の通信を削減し、個別の批評家モデルを排除し、TCOを10〜20%削減します。

INTELLECT-2のデモでは、32BパラメータのRLセットアップが応答時間を15%短縮し、失敗したリクエストを24%削減することが示されました。最大10〜30Bパラメータのモデルは、単一のGPUで完全なRLHFを実行できますが、70B+モデルでさえ、openRLHF、TBA、Ray RLlibのようなフレームワークを使用して、より安価なリソースに分散できます。

準備するには、OpenRLHFやGRPOのようなフレームワークを使用して<10msの評価を行うためのエッジMDCに投資し、リージョナルポッド全体で分散型RLワークフローをパイロットテストします(TCOを35%削減する可能性があります)。事前トレーニングにはハイパースケールを維持しながら、主権とコスト削減のためにRL/推論をエッジに移行するハイブリッド戦略を採用します。また、迅速な適応のために、フェデレーション学習とベンダーに依存しない設計でツールを構築します。W.Media:オーストラリアのデータセンター事業者は、米国で業界が発展している方法からどのような教訓を得ることができますか?

グレイソン: オーストラリアの事業者は、座礁資産につながる過剰な建設のような米国の落とし穴に注意を払い、代わりに優れた俊敏性のためにモジュール式/エッジモデルに方向転換する必要があります。迅速な展開、再生可能エネルギーによる持続可能性の向上、およびRL/推論への注力のために、モジュール式アプローチを採用し、ベンダーに依存しないポッドを使用してシリコンの変動をヘッジします。ローカルエッジインフラストラクチャを通じて、主権AIを重視します。

米国の中心的な教訓は、AIの旋風のような進化において、質量よりもモジュール性を優先することです。適応性があり、分散されたシステムを作成して、シリコンに対応し、時代遅れのモノリスを回避します。柔軟性は究極のエッジです。オーストラリアの事業者にとって、これは、財務の安定性とデータ保護のためにAPRA規制を遵守することを優先し、国境を越えた運用についてはGDPRのようなグローバルスタンダードを遵守することを意味します。分散型RLセットアップでは、サイバー強化(ゼロトラストアーキテクチャや暗号化された連合学習など)を組み込んで、エッジ環境での脅威から保護し、パフォーマンスを犠牲にすることなく主権を確保します。W.Media:シドニーでの基調講演から、参加者にどのような教訓を持ち帰ってほしいですか?

グレイソン: AIインフラストラクチャの未来は予測不可能です。迅速に方向転換できる俊敏性を養い、急速な市場の変化が収益を損なう可能性のある展開における長期的な設備投資を最小限に抑えます。モジュール性は単なる戦術ではありません。不確実性の中で繁栄するための原則です。イベント詳細:シドニー国際コンベンションセンター、2025年8月21日、午前8時00分~午後8時30分。

こちらから登録: https://clouddatacenter.events/events/sydney-cloud-datacenter-convention-2025/

 

Publish on W.Media
Author Info:
Picture of Simon Dux
Simon Dux
Share This Article
Related Posts
Other Popular Posts
Southeast Asia News [JP]