重新思考人工智能时代数据中心冷却系统的用水方式

人工智能工作负载正在从根本上改变数据中心的需求。人工智能时代的冷却方式有哪些不同？

人工智能彻底改变了散热设计。我们正从相对可预测的、基于 CPU 的工作负载转向 GPU 驱动的环境，后者具有极高的功率密度和高度动态的负载曲线。这意味着热量更加集中、变化更大，也更难用传统的风冷系统进行有效控制。散热不再仅仅是维持环境温度；而是要实时、精准地从源头——芯片层面——去除热量。这就是人工智能发挥作用的地方。芯片级液冷成为必需品，而非可选项。.

用水量正成为一个重要问题。在这种新形势下，运营商应该如何看待用水效率？

水资源利用效率 (WUE) 已成为一项关键指标，因为数据中心如今正大规模地争夺有限的淡水资源。一些数据中心每天消耗数百万加仑的水，这显然是不可持续的。挑战在于，许多传统的冷却方式都存在权衡取舍：你可以优化能源效率或水资源效率，但无法两者兼顾。例如，蒸发式冷却系统虽然节能，但耗水量巨大。我们致力于打破这种权衡取舍。我们的目标是在数据中心层面实现高性能冷却，同时最大限度地减少甚至零用水量。.

液冷技术如何改变性能和可持续性的格局？

液体冷却从根本上提高了传热效率。水或介电液体比空气更能有效地吸收和带走热量。采用芯片级直接散热方式，可以将热量精准地从产生的地方移除，而无需冷却整个数据中心。.

这有两个主要优点：

首先，它能在不受散热限制的情况下实现更高的计算密度。.
第二点是减少对高耗能高水的冷却基础设施的依赖。.

在许多情况下，您可以完全消除或大幅减少冷却塔，这对 WUE 有直接的积极影响。.

关于不同的冷却方式有很多讨论。最先进的系统之间有什么区别？

并非所有液冷系统都一样。真正的创新之处在于如何高效地将芯片产生的热量散发出去并排出系统。区别在于，冷却是被视为系统级优化，还是仅仅是对现有基础设施的附加组件。.

更高级的方法主要关注以下四个方面：

尽量减少或消除对蒸发过程的依赖
精准冷却热点区域，而不是整个房间。
采用更高的流体温度运行以降低能耗
实现“温水”或无冷水机冷却架构

一些解决方案仍然严重依赖设施级冷却系统。这在人工智能规模下是否可持续？

这种模式的扩展性越来越差。当冷却严重依赖集中式基础设施（例如大型冷却厂或耗水系统）时，就会引入能源、水资源和物理空间方面的限制。我们看到的趋势是向更分布式、模块化的冷却架构转变，这些架构更靠近计算节点运行。这可以减少损耗、提高响应速度，并随着工作负载的演变为运维人员提供更大的灵活性。在人工智能规模下，效率必须从系统设计之初就融入其中，而不是事后附加。.

大多数数据中心已经运行多年，并且一直依赖风冷系统。随着它们将机房空间改造为以GPU为中心的工作负载，它们能否采用液冷系统来应对更高的热负荷？

是的，但这需要周密的整合。大多数现有数据中心的设计并未考虑人工智能相关的高功率密度和热负荷，因此改造并非简单地用一种冷却方式替换另一种。尽管如此，许多运营商已成功采用混合方案，在现有数据中心的特定区域引入液冷技术。这使他们能够在不改造整个设施的情况下支持GPU集群。.

关键在于模块化和可扩展性。模块化液冷系统可以逐步部署，逐机架或逐行进行，同时还能与现有的风冷基础设施共存。这最大限度地减少了中断，使运营商能够逐步提升容量和效率。从用水效率的角度来看，改造也为减少对耗水量大的冷却方式的依赖提供了机会。.

直接芯片液冷和浸没式冷却在WUE和PUE方面有何区别？它们各自的实际普及时间表是什么？

这两种方法都显著优于风冷，但它们对WUE、PUE和部署时间的影响方式有所不同。芯片级液冷通过在热源处高效散热来提高PUE，并能减少对蒸发冷却的依赖，从而有助于提高WUE。它也更容易改造，因此是AI工作负载扩展的最快途径。浸没式冷却可以进一步提高效率，尤其是在高密度应用场景下，对WUE和PUE都有显著的潜在优势。然而，它需要对硬件、运行和设施设计进行根本性的改变。因此，它目前仍主要处于试点或早期应用阶段，而芯片级液冷正在成为近期标准。.

数据中心运营商应该如何平衡WUE与其他指标（如PUE和CUE）？

正因如此，一个全面的效率框架才显得至关重要。孤立地优化单一指标可能会在其他方面造成意想不到的后果。例如，降低PUE值的同时可能会增加用水量；提高计算性能的同时可能会增加冷却系统的复杂性；降低能耗的同时可能会依赖高碳排放的能源。该领域的领先者正是那些能够有意识地管理这些相互依存关系的企业，而冷却系统正是这种平衡的核心所在。它直接影响着能源、水和碳排放的最终结果。.

创新在提高人工智能基础设施效率方面发挥着怎样的作用？

创新是唯一出路。人工智能的发展势头强劲，因此基础设施必须随之演进，才能为其提供负责任的支持。芯片制造商、系统设计商和基础设施提供商等整个生态系统成员之间需要加强合作，并达成一致。这意味着：

实现能够改变电力和热力系统交互方式的新架构
设计可随计算密度扩展的冷却系统
从源头减少资源消耗，而不是在其他地方进行抵消。

展望未来，人工智能数据中心的最佳冷却策略将由哪些因素决定？

三件事：

精确 — 在芯片层面，精准地在需要的地方进行冷却。
效率 — 同时最大限度地减少能源和水的使用
适应性 — 支持快速发展的AI硬件和工作负载

未来并非在于对现有系统进行渐进式改进，我们没有时间这样做。未来在于从根本上重新思考热管理，将其作为人工智能基础设施的核心推动因素。.