联系我们

使用液体来冷却最新的 AI 芯片

发表于
2024 年 9 月 4 日

液体冷却是高功率下唯一可行的解决方案

通过一定体积的液体运动来传递热量比通过相同体积的空气传递热量的效率高得多——对于水来说,效率大约是空气的 3,600 倍。

使用液体来冷却最新的 AI 芯片

这使得通过芯片散热器进行液体冷却成为一种非常有效的方法。当散热量超过每厘米 50 瓦时,通常需要这样做2 芯片面积。鉴于 GB200 的估计面积约为 9cm2,任何超过 450 W 的耗散都表明需要泵液冷却。

在“直接芯片”冷却中,液体通过热界面流经连接到芯片散热器的冷板通道。当液体在此过程中不蒸发时,这被称为“单相”操作,其中介质(通常是水)通过风扇冷却的热交换器泵送。

或者,热量可以转移到第二个液体回路,该回路可以为建筑物提供热水,也可能为当地消费者提供热水。两相操作提供更好的热传递,通过允许液体(通常是氟碳)在吸收热量时蒸发,然后在热交换器处重新凝结。这种方法可以显著提高性能。然而,仍然需要系统风扇来冷却其他组件,尽管有些组件(如 DC/DC 转换器)可以使用它们自己的底板集成到液体冷却回路中。这符合“垂直供电”概念,其中 DC/DC 转换器直接位于处理器下方以最大限度地减少电压降。直接到芯片方法的一个实际限制是芯片和冷板之间界面的热阻。表面的精确平整度和高性能焊膏是必要的,但在数千瓦级,温差仍然可能成问题。

这种限制似乎会限制散热,从而限制性能。作为一种解决方案,可以考虑浸入式冷却。在这种情况下,整个服务器被放置在一个开放式电介质槽中,电介质通过一个水箱围绕一个回路泵送到热交换器。同样,两相操作可以实现最佳性能。

1971 年的英特尔工程师一定会对 2024 年数据中心的性能水平感到惊讶。但悬崖边缘会不会到来?芯片特征尺寸和温度升高存在实际限制,能源供应和环境影响也存在制约,尤其是如果性能继续依赖于简单的硬件复制。

最终,投资者寻求的是投资回报。鉴于冷却的极端复杂性、高昂的能源成本以及昂贵的芯片采购成本(例如据报道每块 GB200 芯片的成本高达 $70,000),商业可行性可能很快就会成为一个紧迫的问题。也许人工智能会告诉我们解决方案是什么。