硅的移动速度比钢铁快,数据中心必须跟上

从指挥核动力快速攻击潜艇到领导 AWS、Meta 和 Oracle 的超大规模数据中心项目,Tony Grayson 将精准、韧性和技术专长独特地融合到 AI 基础设施中。

现在,作为 Northstar Federal & Northstar Enterprise & Defense 的总裁兼总经理,Grayson(如上图,右)将在悉尼举行的 2025 年云与数据中心大会上发表 主题演讲,探讨强化学习 (RL) 计算和智能 AI 如何推动向分布式计算的转变。

W.Media 与他进行了座谈,讨论了这些发展对基础设施设计、快速部署、可持续性以及电信和云运营商的未来需求意味着什么。W.Media:作为一名将公司发展到数百万美元合同额的人,您对今天计划进行 AI 基础设施投资的组织有什么建议?他们应该如何构建这些投资,以在未来 3-5 年内保持转型、退出或技术转移的灵活性?

Grayson: 根据我在 NorthStar 和扩展 EdgePoint Systems 的经验,必须在每一层都嵌入敏捷性,以跟上 AI 的快速变化。首先,使用模块化、增量式构建,而不是整体式构建。模块化数据中心 (MDC) 在 3-9 个月内即可部署,每兆瓦成本约为 700 万至 900 万美元(美国/澳大利亚平均水平),而超大规模数据中心则需要 18-24 个月,每兆瓦成本为 1200 万至 1500 万美元。这避免了硬件刷新周期造成的过度配置和闲置容量。将您的设计视为乐高积木:标准化组件以实现大规模定制,同时确保可维护性。

MDC 还有助于绕过 6-18 个月的许可延误;预制建筑可以将现场时间缩短 50-70%,并避免全面的环境审查,从而使棕地改造或靠近变电站的边缘站点能够避开像 PJM 这样的多年积压的电网队列延误。其次,选择与供应商无关的混合/多云架构,以避免锁定——适应 NVIDIA、AMD、Groq 和 ONNX 等标准。考虑 MDC 的运营支出租赁,以支持退出或转型。

第三,为新兴技术(如分布式强化学习 (RL) 和智能 AI)预算 20-30%——RL 可以将延迟降低到 10 毫秒以下,并且根据麦肯锡的说法,到 2030 年,智能 AI 可能会达到 500 亿美元(45% 的复合年增长率)。使用情景规划框架来绘制“假设”情景,并规划推理繁重的工作负载,预计到 2030 年,推理繁重的工作负载将占 AI 支出的 60-80%(2540 亿美元,17.5% 的复合年增长率)。最后,将所有投资与投资回报率联系起来——MDC 可以将构建成本降低 40-60%,并通过更快的部署来加速收入。请记住,仅仅技术并不能产生收入;适应性强的基础设施才能产生收入。W.Media:鉴于您强调“芯片比钢铁和混凝土移动得更快”,组织应如何在长期基础设施投资与芯片每 12-24 个月刷新的现实之间取得平衡?什么规划框架最适合这种悖论?

Grayson: “芯片比钢铁和混凝土移动得更快”这句话概括了 AI 基础设施中最大的挑战。硬件每 12-24 个月刷新一次,这比传统数据中心的构建周期快得多,如果您不小心,可能会留下数百万美元的闲置资产。关键是将您的基础设施与任何一代芯片分离。随着我们进入 Rubin 时代,这一点变得更加重要,Hopper 或 Grace Blackwell 系统的功率密度从每个机架 800 千瓦推升到 1.5 兆瓦——而且这些机架的重量可能是今天的两倍。

我使用过的一种方法是我称之为“模块化刷新周期”的方法,即将基础设施分解为可以升级而不会中断整个站点的吊舱。在 NorthStar,我们的模块化数据中心支持 30-132 千瓦的机架,并使用先进的液体冷却技术,因此我们可以根据需要推出新的芯片。我们计划 18-24 个月的周期,但对五年生命周期进行建模,并将模块化带来的 20-30% 的运营支出节省考虑在内。使用像蒙特卡罗模拟这样的框架来模拟芯片价格波动,并对刷新影响进行敏感性分析,以应对这种不确定性。

竞争格局也在发生变化:虽然 NVIDIA 通过 CUDA 在训练中占据主导地位,但 AMD 的 MI400X 在推理方面具有挑战性,而像 Groq 这样的定制芯片可能会进一步优化。RL 训练(如 Grok 4 中)有利于分布式计算,从而减少了集中化需求。

我们今天专注于 GPU,但未来是具有 Compute Express Link (CXL) 的分解架构,它允许 CPU 和 GPU 按需共享内存。传统的 GPU 将 HBM 绑定到每个芯片,从而导致闲置容量和 30% 的更高开关成本。CXL 提供每瓦特超过 30% 的更好性能,并将总成本降低 20-30%。我看到运行 CXL 池化加速器的 MDC 将吞吐量提高了 25% 以上,而像 ONNX 这样的开放框架有助于避免供应商锁定。

每个技术浪潮——GPU、分布式 RL、量子(可能需要专门的屏蔽设施)——都需要不同的基础设施。旧的数据中心假设 20 到 30 年的客户生命周期已经结束。AI 发展太快,您必须为 3 到 5 年的过时风险进行设计。模块化和灵活的运营支出模型使您的钢铁和混凝土成为基础,而不是笼子。W.Media:在您最近撰写的一篇文章中,您挑战行业在构建大规模 AI 基础设施之前先问“您将如何赚钱?”。在规划不可预测的 AI 工作负载需求时,组织应使用哪些具体的财务指标和投资回报率模型?

Grayson: 挑战归结为这一点:除非您是云服务提供商或新云服务提供商,否则语言模型本身不会货币化——推理是收入的来源。资本支出很重要,但运营支出将决定可持续性。要在不可预测的工作负载中进行规划,您需要专注于直接与价值创造相关的指标。

要跟踪的关键指标包括优先考虑每次推理的总拥有成本——通过像 Groq LPU 这样的定制芯片将成本降低 30-70%,这可以产生高达 50 倍的收入(想想每个机架每天 15,500 美元,而 H100 同等产品每天 310 美元)。监控 MDC 的电源使用效率,PUE 低于 1.2,而传统站点的 PUE 为 1.5+。跟踪每兆瓦的资本支出——模块化构建比传统方法具有显着的成本优势。注意闲置容量风险,对于不灵活的构建,可能会达到 1 亿至 5 亿美元。

不要忘记推理吞吐量——Groq 可以提供 100,000+ 个令牌/秒,而 H100 上约为 2,000 个——以及以令牌/秒/千瓦为单位衡量的能源效率。

对于 ROI 模型,实施我称之为“分阶段回收”的方法。计算您的五年内部收益率——对于具有 NVIDIA B200 GPU 的 1MW MDC,您希望达到 25%+,这可能会从 AI 服务中产生 340 万美元的利润。使用净现值来折现未来的现金流,并将推理市场预计到 2030 年的 17.5% 的复合年增长率(达到 2540 亿美元)考虑在内。考虑机会成本——更快的模块化部署可以为您节省数百万美元的延迟收入。

对于不确定性,利用蒙特卡罗模拟来模拟工作负载变化,例如预计 60-80% 的推理主导地位和芯片定价波动——H100 的价格从每小时 4 美元降至每小时 0.9 美元左右。

基于情景的 ROI 至关重要:基本情况假设集中训练,乐观情况考虑分布式 RL 将成本降低 35%,悲观情况考虑 20% 的容量闲置。始终将一切都建立在收入基础上:您的每个令牌或每次查询的收益是多少?定制芯片通常提供 10-25 倍更好的每次推理成本,使其成为应对商品化的可靠对冲。W.Media:您强烈主张使用模块化数据中心,而不是传统的千兆园区方法。组织应使用哪些关键决策标准来确定模块化何时有意义,以及规模经济何时有利于更大、更集中的基础设施

Grayson: 当敏捷性超过原始规模经济时,模块化会脱颖而出。坦率地说,我怀疑纯粹的规模是否总是必要的——AI 加速器大约每六个月将 PFLOPS 翻一番,这表明在数据稀缺的情况下,令牌数量可能会趋于稳定,而 RL 计算则会转向分布式。

从成本和风险的角度来看,模块化在每兆瓦低于 1000 万美元的情况下获胜,可节省 35-60% 的总拥有成本,从而避免了因技术转变而造成的 1 亿美元以上的闲置资产。集中式基础设施适用于 100 兆瓦以上规模的超低每千瓦时美元,但具有更高的前期风险。工作负载类型也很重要——像 Grok 4 这样的边缘推理和分布式 RL 偏爱 MDC,以实现低于 10 毫秒的延迟,而大规模预训练仍然需要超大规模的带宽和密度。可扩展性也起着作用:对于波动性需求,选择增量式吊舱添加,对于可预测的大批量训练,选择集中式。

在可持续性和主权方面,MDC 更容易集成可再生能源——实现卓越的 PUE 性能和减少 40-60% 的隐含二氧化碳——并实现数据本地化。通过预制、回收材料和减少浪费,模块化可以比传统建筑降低 20-30% 的隐含碳。

地理位置通常决定,因此对于延迟敏感型应用程序,选择边缘或区域模块化,对于能源丰富地区的批量计算,选择集中式。通常,MDC 增强超大规模的混合模型可以达到最佳平衡。模块化方法还通过简化的许可流程提供部署优势。W.Media:由于芯片显示出比传统 GPU 高出 50 倍以上的收入潜力,组织应如何在不同的芯片架构(NVIDIA、AMD、Groq、AWS Inferentia)之间对冲风险,而“赢家”仍然不明确?

Grayson: 由于像 Groq 的定制芯片展示了 50 倍的收入优势,并且 AMD 的 MI300X 在推理方面获得了吸引力,因此对冲就是将不可知论构建到您的堆栈中。仅部署以满足当前需求,因为土地收购和许可时间可能会阻碍转型。标准化设计,以便您可以快速在架构之间切换,并确保您具有清晰的升级路径。支持绿地和棕地站点以实现多功能性。在 NorthStar,我们的 MDC 通过灵活的 30-132 千瓦+ 机架和 ONNX 兼容性来容纳 NVIDIA、AMD、Groq 和 AWS Inferentia。

刷新策略应与 12-18 个月的周期保持一致,并且 MDC 允许免停机推出。多样化合作伙伴关系以获得测试版和共同开发机会,并监控生态系统变化。NVIDIA 在训练中的 CUDA 主导地位可能不会在推理中保持,在推理中,效率胜过通用性。AMD 于 2025 年 6 月推出的开发者云就是一个很好的例子——ROCm 7 增强功能、MI350X 在 2025 年提供比上一代高 35 倍的推理性能,以及 2026 年的 MI400X,提供具有竞争力的定价和与 NVIDIA 的 DGX 云相媲美的开放生态系统。这加速了推理的替代方案,并且可以通过以每美元提供 40% 的更多令牌来降低 TCO。W.Media:鉴于您在核潜艇方面的背景以及在将 SMR 和微型反应堆用于边缘 AI 工作负载方面的咨询工作,您认为核能在数据中心基础设施的未来,特别是对于关键任务和无碳 AI 部署中发挥什么作用?DC 运营商应该如何看待在此期间的可再生能源?

Grayson: 根据我在核潜艇指挥和 SMR 咨询方面的经验,核能将改变弹性、无碳 AI 基础设施,尤其是在边缘。SMR 和微型反应堆可以在 2035 年之前为 MDC 提供动力,这与目前的营销非常不同,为自主、关键任务部署提供基本负荷能源。实际上,时间表各不相同:Gen III+ 反应堆(具有被动冷却)现在可以部署,微型反应堆可能会在 2027-2028 年达到规模,而 Gen IV 在设计批准、测试和燃料采购方面面临障碍。

到 2035 年,我们可能会看到 10 兆瓦的机架相当于今天 3 吉瓦的 PFLOPS,从而扩大了核能的吸引力。在此期间,将可再生能源视为重要的桥梁:将太阳能/风能集成到 MDC 能源组合的 40% 以上,并通过电池和微电网来增强稳定性。探索天然气作为可靠的备用能源;氢的潜力仍然存在,尽管比预期的要慢。这种混合路径可确保实现碳目标,而不会影响正常运行时间。PUE 以外的可持续性指标:为了补充可再生能源,请考虑通过模块化(降低 20-30%)和提高用水效率来减少隐含碳——到 2027 年,AI 可能会在全球范围内需要 42-66 亿立方米的水,但 MDC 中的闭环液体冷却可以回收 90-95% 的水,从而解决了每次查询消耗 1-5 升的问题。W.Media:您提到 Grok 4 的分布式强化学习方法可能会改变部署模型。组织应如何为从集中式超大规模企业依赖向更分布式、以边缘为中心的 AI 架构的潜在转变做好准备?

Grayson: Grok 4 标志着训练平衡的重大转变。早期的 LLM 主要侧重于预训练,仅通过人类反馈 (RLHF) 进行轻度强化学习。Grok 4 使用的总计算量大约是 Grok 2 的 100 倍,将其平均分配到预训练和 RL 之间,并在像 Humanity’s Last Exam 这样的基准测试中提供了最先进的结果。RLHF 提高了模型的推理深度,而 Grok 4 的多代理 RL(代理在其中辩论答案或模拟推理路径)已显示出在低延迟、以边缘为中心的用例中具有强大的性能。

与需要整体集群的预训练不同,RL 工作负载更并行并且更能容忍延迟。工作流程分为三个角色:推出工作者(生成输出)、评估节点(对输出进行评分)和学习者节点(更新参数)。推出工作者和评估者可以处理数十到数百毫秒的延迟并在较旧或商品硬件上运行,而像 GRPO 这样的新方法可以减少节点间通信并消除单独的评论家模型,从而将 TCO 降低 10-20%。

INTELLECT-2 的演示显示了一个 320 亿参数的 RL 设置,将响应时间缩短了 15%,并将失败的请求减少了 24%。高达 10-300 亿参数的模型可以在单个 GPU 上运行完整的 RLHF,甚至 700 亿+ 的模型也可以使用像 openRLHF、TBA 和 Ray RLlib 这样的框架在更便宜的资源上进行分配。

要做好准备:投资 Edge MDC,使用像 OpenRLHF 或 GRPO 这样的框架进行 <10 毫秒的评估;在区域吊舱中试点分布式 RL 工作流程(可能会将 TCO 降低 35%);采用混合策略,保持超大规模进行预训练,同时将 RL/推理转移到边缘以实现主权和节省成本;并构建具有联合学习和与供应商无关的设计的工具,以实现快速适应。W.Media:澳大利亚数据中心运营商可以从美国行业的发展方式中吸取哪些教训?

Grayson: 澳大利亚运营商应注意美国的陷阱,例如过度建设导致资产搁浅,转而采用模块化/边缘模型以获得卓越的敏捷性。采用模块化方法进行快速部署,通过可再生能源增强可持续性,并专注于 RL/推理——使用与供应商无关的容器来对冲硅波动。通过本地边缘基础设施强调主权 AI。

美国的核心教训是,在人工智能的旋风式发展中,优先考虑模块化而不是大规模——构建适应性强、分布式的系统,以跟上硅的发展速度,并避免过时的庞然大物。灵活性是最终的优势。对于澳大利亚运营商而言,这意味着优先遵守 APRA 法规,以确保金融稳定和数据保护,同时遵守 GDPR 等全球标准,以进行跨境运营。在分布式 RL 设置中,结合网络强化——例如,零信任架构和加密的联邦学习——以防范边缘环境中的威胁,在不牺牲性能的情况下确保主权。W.Media:您希望与会者从您在悉尼的主题演讲中获得什么教训?

Grayson: 人工智能基础设施的未来是不可预测的——培养迅速转型的敏捷性,最大限度地减少部署中的长期资本支出,因为快速的市场变化可能会侵蚀回报。模块化不仅仅是一种策略;它是在不确定性中蓬勃发展的原则。活动详情:悉尼国际会议中心,2025 年 8 月 21 日,上午 8:00 至晚上 8:30。

在此注册: https://clouddatacenter.events/events/sydney-cloud-datacenter-convention-2025/

 

Publish on W.Media
Author Info:
Picture of Simon Dux
Simon Dux
Share This Article
Related Posts
Other Popular Posts
South Asia News [CN]
26 8 月, 2025