为人工智能时代重新设计数据中心

有时变化发生得如此之快,以至于难以跟上,我们必须做出让步,否则将面临严峻的障碍。随着人工智能开始接管世界,GPU设定了节奏,但数据中心却步履蹒跚——有些无法满足上市时间的需求,而另一些则付出了高昂的代价。

如果我们回顾几年前,甚至将其与今天的标准HPC负载进行比较,就可以看到人工智能基础设施建设方面的明显差异。尽管它们功能强大,但典型的20到30千瓦的设置已不足以支持AI工作负载。

为什么今天的数据中心达到极限

随着最新的流行的B200,即GB系列,每个机架使用100–130千瓦,世界正在竞相达到新的基准:600千瓦的Rubin Ultra。我们现在看到的负载范围是每平方米20千瓦到600千瓦——基本上是将15到20兆瓦的数据中心压缩到仅1,000平方米的白色空间中。

从房地产或环境的角度来看,这似乎是一个积极的转变。但这带来了严重的工程和运营挑战——这些挑战使运营和项目团队彻夜难眠。以下是一些挑战。

  • 负载张力或泄漏:

    建议的100千瓦机架的负载张力为每平方米200至300公斤。这仅仅意味着很难设计出能够承受如此重量的立管。因此,通常将冷却管安装在地板上方或机架上方作为一种解决方法。但这并非一种长期、适应性强的解决方案。解决一个问题往往会产生另一个问题,并且维护数据中心的正常运行时间成为真正的挑战。

  • 数据中心扩展:

    随着基础设施变得越来越密集,大型数据中心无法再充分利用土地。有人可能会认为这意味着在较小的占地面积内实现更高的部署密度——但事实并非如此。政府法规和电气工程的限制限制了可以输送到单个站点的电量。在我看来,数据中心的“土地利用效率”正在日益下降。

  • 项目规划:

    数据中心现在需要强大的机械和土木基础设施,能够支持任何解决方案。但是,针对各种容量负载进行设计在经济上并不理想。预算显着增加,并且ROI变得令人怀疑,尤其是在低容量部署占据相同的高规格空间时。

  • 硬件报废:

    过时的硬件使项目规划更加困难。由于系统仅能持续两到三年,因此数据中心已经在努力解决早期的问题。更糟糕的是,即将推出的系统与旧系统不兼容,从而没有重用或适应的空间。

重新思考数据中心堆栈

鉴于所有这些挑战,现在是时候重新思考和重新构建典型数据中心的四个关键支柱了:

  • 电信:

    未来的数据中心网络将是超密集的。每个NVIDIA SuperPod可能需要22公里的光学器件。预计边车的大小与单个机架一样大,并且在具有72层PCB的Rubin板上最多有5,000根电缆。您的 汇接间 准备好支持这个了吗?

  • 电气:

    电力是任何系统的命脉。机架随内置电源一起到达,数据中心正在超越传统的N或2N设置。现在,系统需要奇数个连接,这使得冗余变得不可预测,无论是对于PDU、母线、ATS还是N(x)变压器。

  • 架构:

    每个新的迭代都带来了变化:电缆出口、冷却液网络、承重注意事项。必须考虑每个组件,并且任何单个故障都不应影响其余组件。数据中心必须以最小的重新设计从HPC扩展到下一代AI。

  • 机械:

    能够支持未来两到三百公斤或更多公斤的立管、用于大量电源和网络电缆的增压空间以及对广泛冷却基础设施的考虑,对于项目团队来说是每天的挑战。必须考虑物理工程的各个方面,并且必须满足所有机械要求。

 

*作者负责Compute Nordic的端到端运营和战略。他在印度和挪威的各个主要DC参与者中拥有约13年的经验。

**这篇文章首次出现在W.Media的Cloud& Datacenters杂志的第9期中。单击下面的图片,然后转到第22-23页以阅读该故事。

Publish on W.Media
Author Info:
Picture of Deborah Grey
Deborah Grey
Share This Article
Related Posts
Other Popular Posts
Expert Speak [CN]