“人工智能工厂”一词已从流行语转变为蓝图。今年,澳大利亚将看到其首个专用案例在墨尔本投入使用。ResetData 正在交付经过人工智能优化的基础设施和人工智能市场,以推动行业创新。为了实现这一目标,该公司与包括 BP 嘉实多在内的主要供应商合作,引入最先进的液体冷却系统,以保持最强大的 GPU 以最佳性能运行。这为自主、可持续的人工智能基础设施创建了一个模型,并将在 8 月 21 日举行的悉尼云与数据中心大会上分享内幕故事。
ResetData 是一家澳大利亚技术基础设施公司,专注于提供高性能、低影响的人工智能计算环境。其人工智能工厂专为人工智能、机器学习和大型语言模型工作负载而设计,将密集的 GPU 集群与先进的液体冷却相结合,以最大限度地提高性能,同时降低排放和能源成本。
ResetData 联合首席执行官 Bass Salah(上文)在 最近的一篇文章 “中表示:“我们的人工智能工厂将改变澳大利亚企业的竞争格局。以前只有少数私有 GPU 集群才能使用这项技术。我们的人工智能工厂的推出打开了人工智能的使用渠道,从而加速澳大利亚的经济增长。ResetData 人工智能市场提供经过 NVIDIA 认证的实时人工智能模型,可供立即部署。”
他补充说: ““在发布时,我们快速增长的人工智能解决方案系列将为会计、法律、零售、技术和工程团队提供服务。ResetData 正在使澳大利亚的 IT 更加节能和可持续,成本降低高达 40%,排放量减少 45%,并且实现零废水。这些效率对国家至关重要,因为数据中心已经使用了全国电力供应的二十分之一,并且还在迅速增长。超高密度、低延迟的 CBD 人工智能工厂是该行业的未来。”
澳大利亚的人工智能基础设施目前严重依赖外国拥有的超大规模提供商。位于墨尔本的 ResetData 的 AI-F1 将提供更大的自主能力,并将在本月底投入运营。该 1.25 兆瓦的站点容纳 Nvidia H200 GPU 集群,旨在适应最新的 AI 工作负载。人工智能市场和行业覆盖范围除了其基础设施之外,ResetData 还推出了一个人工智能市场平台,该平台可在 Nvidia AI Enterprise 下即时访问 Nvidia 认证的人工智能模型和微服务。该市场面向广泛的受众,从初创企业和研究机构到政府机构和大型企业,在会计、法律、零售、技术、工程等领域具有潜在的应用。液体冷却的作用液体冷却是 AI-F1 管理当今极端计算负载能力的基础。现在,GPU 的功耗为每块 1 千瓦或更多。正在出现 2 千瓦 GPU 的设计——仅靠空气冷却已不足够。BP 嘉实多通过其数据中心市场开发专业知识,提供热管理系统,使如此高密度的部署成为可能。
BP 嘉实多的方法涵盖直接芯片冷却(冷板直接从 CPU 和 GPU 吸收热量,在源头去除 70-80% 的热量)和浸没式冷却(整个服务器浸没在介电流体中以实现更高的密度)。直接芯片系统与许多现有的数据中心设计兼容,但仍然需要辅助空气冷却,而浸没式冷却可以完全在没有空气冷却的情况下运行,尽管它需要并非所有 OEM 目前都支持的硬件和保修考虑因素。运营现实和风险管理BP 嘉实多亚太区数据中心市场开发总监 Mark Roberts 警告说,随着直接液体冷却 (DLC) 和浸没式冷却的兴起,如果数据中心运营商实际上没有监控其流体的健康状况,他们将面临停机风险, 正如 W.Media 报道的那样,Mark Roberts 表示:
“我们花了多年时间实际设计数据中心的单点故障。我们只是把它放回去了。空气正在达到其临界点;我们无法用我们现在开始看到的 TDP 来冷却其中的一些 GPU,并补充说 1 千瓦的 GPU 将会很正常,然后一直到 2 千瓦的 GPU。目前推出的带有 H200 的 NVL72 机架大约为 120-130 千瓦。”
他补充说:“我们显然开始看到有关 600 千瓦的公告,当我们谈论处于降级状态的流体时,你可能会出现早期设备故障、潜在的腐蚀问题,你最终会降低你的冷却能力。这不会一次性发生。因此,非常重要的是,你要监控该流体,无论是基于状态的监控系统还是你的季度预防性维护。当我们谈论价值 500 万美元的机架时,最好确保流体和所有通过这些机架的东西,你可以减轻风险。”
随着人工智能工厂投入生产,流体质量将与任何硬件组件一样重要,风险包括腐蚀、生物污染和材料降解。BP 嘉实多建议将冷却液视为备件,维护详细的流体健康记录,并使用基于状态的监控来检测变化,然后在它们影响性能之前。
运营需求非常重要。高密度人工智能环境中的浸没式储罐可能包含数千升流体,而直接芯片系统在高压和高流速下运行,通常每秒通过机架歧管移动超过 15 升。快速的 GPU 功率峰值,有时几乎使峰值拉取量翻倍(以毫秒为单位),这意味着系统必须经过设计,以在突然的负载变化下保持冷却性能。BP 嘉实多的工程方法包括加大管道尺寸和使用缓冲罐来保持热稳定性。
可持续的人工智能基础设施ResetData–BP 嘉实多合作伙伴关系展示了如何集成人工智能专用数据中心设计和先进的冷却技术,以满足性能和可持续性目标。AI-F1 设施专为人工智能工作负载而设计。自主基础设施、GPU 密度、高效冷却和可访问的人工智能市场的结合为澳大利亚及其他地区的未来设施树立了先例。在悉尼发表主旨演讲在 2025 年悉尼云与数据中心大会上,BP 嘉实多的 Mark Roberts 和 ResetData 的 Bass Salah 将发表题为“人工智能工厂——最新的流行语还是重新定义数据中心行业的用语”的主旨演讲。会议将涵盖人工智能工厂的预计增长、它们对物理基础设施的影响以及从构建澳大利亚首个自主人工智能工厂中获得的经验教训。
与会者可以期待一场扎实的讨论,从业务驱动因素和设计选择到热风险管理、硬件兼容性和在快速发展的人工智能硬件需求面前进行扩展等运营挑战。
悉尼云与数据中心大会将于 2025 年 8 月 21 日上午 8 点至晚上 8:30 在悉尼国际会议中心举行。请通过以下网址提交您的参会注册: https://clouddatacenter.events/events/sydney-cloud-datacenter-convention-2025/
[Author: Conor McNevin]