与 Flex 的设计和工程副总裁 Rick Payne 就创新、节水和下一代热设计进行的对话
人工智能彻底改变了散热设计。我们正从相对可预测的、基于 CPU 的工作负载转向 GPU 驱动的环境,后者具有极高的功率密度和高度动态的负载曲线。这意味着热量更加集中、变化更大,也更难用传统的风冷系统进行有效控制。散热不再仅仅是维持环境温度;而是要实时、精准地从源头——芯片层面——去除热量。这就是人工智能发挥作用的地方。 芯片级液冷 成为必需品,而非可选项。.
水资源利用效率 (WUE) 已成为一项关键指标,因为数据中心如今正大规模地争夺有限的淡水资源。一些数据中心每天消耗数百万加仑的水,这显然是不可持续的。挑战在于,许多传统的冷却方式都存在权衡取舍:你可以优化能源效率或水资源效率,但无法两者兼顾。例如,蒸发式冷却系统虽然节能,但耗水量巨大。我们致力于打破这种权衡取舍。我们的目标是在数据中心层面实现高性能冷却,同时最大限度地减少甚至零用水量。.
液体冷却 从根本上提高了传热效率。水或介电液体比空气更能有效地吸收和带走热量。采用芯片级直接散热方式,可以将热量精准地从产生的地方移除,而无需冷却整个数据中心。.
这有两个主要优点:
在许多情况下,您可以完全消除或大幅减少冷却塔,这对 WUE 有直接的积极影响。.
并非所有液冷系统都一样。真正的创新之处在于如何高效地将芯片产生的热量散发出去并排出系统。区别在于,冷却是被视为系统级优化,还是仅仅是对现有基础设施的附加组件。.
更高级的方法主要关注以下四个方面:
这种模式的扩展性越来越差。当冷却严重依赖集中式基础设施(例如大型冷却厂或耗水系统)时,就会引入能源、水资源和物理空间方面的限制。我们看到的趋势是向更分布式、模块化的冷却架构转变,这些架构更靠近计算节点运行。这可以减少损耗、提高响应速度,并随着工作负载的演变为运维人员提供更大的灵活性。在人工智能规模下,效率必须从系统设计之初就融入其中,而不是事后附加。.
是的,但这需要周密的整合。大多数现有数据中心的设计并未考虑人工智能相关的高功率密度和热负荷,因此改造并非简单地用一种冷却方式替换另一种。尽管如此,许多运营商已成功采用混合方案,在现有数据中心的特定区域引入液冷技术。这使他们能够在不改造整个设施的情况下支持GPU集群。.
关键在于模块化和可扩展性。模块化液冷系统可以逐步部署,逐机架或逐行进行,同时还能与现有的风冷基础设施共存。这最大限度地减少了中断,使运营商能够逐步提升容量和效率。从用水效率的角度来看,改造也为减少对耗水量大的冷却方式的依赖提供了机会。.
这两种方法都显著优于风冷,但它们对WUE、PUE和部署时间的影响方式有所不同。芯片级液冷通过在热源处高效散热来提高PUE,并能减少对蒸发冷却的依赖,从而有助于提高WUE。它也更容易改造,因此是AI工作负载扩展的最快途径。浸没式冷却可以进一步提高效率,尤其是在高密度应用场景下,对WUE和PUE都有显著的潜在优势。然而,它需要对硬件、运行和设施设计进行根本性的改变。因此,它目前仍主要处于试点或早期应用阶段,而芯片级液冷正在成为近期标准。.
正因如此,一个全面的效率框架才显得至关重要。孤立地优化单一指标可能会在其他方面造成意想不到的后果。例如,降低PUE值的同时可能会增加用水量;提高计算性能的同时可能会增加冷却系统的复杂性;降低能耗的同时可能会依赖高碳排放的能源。该领域的领先者正是那些能够有意识地管理这些相互依存关系的企业,而冷却系统正是这种平衡的核心所在。它直接影响着能源、水和碳排放的最终结果。.
创新是唯一出路。人工智能的发展势头强劲,因此基础设施必须随之演进,才能为其提供负责任的支持。芯片制造商、系统设计商和基础设施提供商等整个生态系统成员之间需要加强合作,并达成一致。这意味着:
三件事:
未来并非在于对现有系统进行渐进式改进,我们没有时间这样做。未来在于从根本上重新思考热管理,将其作为人工智能基础设施的核心推动因素。.