人工智能数据中心液体冷却的基础知识

概述

在不断发展的数据中心和高性能计算基础设施领域，冷却效率已成为工程师们关注的焦点，他们致力于优化性能和能源利用。随着人工智能、机器学习和多核处理器对散热需求的不断增长，传统的风冷方式已接近其极限。.

与此同时，诸如以下趋势：垂直功率传输 VPD（电压功率分配器）用于最大限度地减少电源分配网络 (PDN) 的损耗，从而实现可根据特定处理器和服务器配置定制的模块。VPD 的低矮设计与直接芯片 (D2C) 液冷相辅相成，这对于 AI 服务器的功耗级别至关重要。这种方法与传统的 DC/DC 转换器横向布局形成鲜明对比，后者通常设计用于强制风冷并尽可能缩小体积。.

强制风冷在低功率密度应用中仍然很常见，但其存在诸多局限性，例如需要大型散热片以及处理高温排气，这可能会对附近的组件产生不利影响。将处理器和散热片放置在排气口附近有所帮助，但这会限制电路板设计的灵活性。.

相比之下，液冷具有诸多优势，包括更高的热传输效率、更小的系统尺寸以及更低的能耗/运行成本。它还省去了可靠性较低的风扇，尽管仍然需要集中式热交换器。虽然液冷需要更高的前期投资，并且由于其集中式特性可能会降低系统的可用性，但它能显著提高冷却效率。.

图 1：处理器垂直供电

一种被称为芯片直接冷却的混合液冷系统，将处理器产生的热量传递到带有液体（通常是水）通道的冷板上。这种单相系统比强制风冷散热效率更高。使用双相系统中的氟碳液体可以进一步提升散热性能，由于蒸发潜热的存在，其吸热能力大约是单相系统的100倍。虽然这种方法成本更高，但即使发生泄漏，其损害也更小，因此即使成本较高，它仍然是一种可行的选择。.

目前直接液冷技术的发展该公司主要专注于两种技术：微通道冷却和微对流冷却。微通道冷却能将热量均匀地分布在芯片表面，但难以处理高功率芯片组，导致其设计需要更紧密的通道和更高的过滤要求，从而影响数据中心的运行。相比之下，微对流冷却（或微射流冲击冷却）则针对处理器上的特定热点进行冷却，具有更低的热阻，并避免了微通道冷却带来的压力问题，因此更适用于高功率应用。. JetCool，一家 Flex 公司, 提供 D2C 液冷模块，该模块使用小型流体喷射阵列，可精确地针对处理器上的这些热点，从而在芯片或设备级别改变高功率电子冷却性能。.

浸没式冷却是另一种选择，它将整个系统浸没在介电液体中。这种方法冷却效率极佳，但人们对环境影响、泄漏以及系统存在单点故障等问题的担忧限制了其应用。此外，介电液体较高的介电常数也会增加杂散电容，这可能会影响高频信号。.

液冷速览

2023年，美国能源部拨款$4000万美元支持创新的数据中心冷却技术。这些项目旨在提升数据中心的能源效率和可持续性。.

传统数据中心每个机架大约消耗 12 kW 的电力，但 AI 数据中心的电力消耗正在急剧增加，目前超高密度机架每个机柜消耗 85 kW 的电力。. 未来预测表明，这一数字可能会上升。随着人工智能工作负载的要求越来越高，每个机架的功率需求将达到 200 kW 至 250 kW。.
更高的机架密度可能意味着更大的数据容量，但也意味着更高的能耗和更多的热量。数据中心的最佳运行密度介于两者之间。 21摄氏度和24摄氏度, 因此，机架密度的任何增加都必须伴随冷却技术的改进。.
冷却系统消耗 25–40% 的能量在数据中心，随着机架密度的增加，冷却系统的设计将在维持整体效率方面发挥越来越关键的作用。.

Uptime Institute 将于 2024 年发布一份关于数据中心/托管设施中使用的直接液冷类型的冷却系统调查报告。

图 2：Uptime Institute 对数据中心/托管设施中使用的直接液冷类型的冷却系统调查

词汇表

沸点：
液体变成蒸汽的温度；对两相冷却中的相变至关重要。.

冷板：
冷板是液冷系统的核心部件。这些金属板直接安装在CPU和GPU上。冷却液在冷板内部的通道中流动，吸收热量并将其从组件上带走。.

冷凝器：
冷却剂汽化后释放热量并冷凝回液体的部件。.

冷却液：
用于吸收和传递部件热量的液体，通常是水、乙二醇混合物或介电液体。.

介电液：
一种不导电的冷却剂，可防止电路短路和腐蚀。.

流速：
冷却剂在系统中流动的体积，通常以升/分钟为单位进行测量。.

热交换器：
一种将热量从冷却剂传递到另一种介质的装置。.

散热器：
这种被动式装置通过将热量扩散到更大的表面积来散发热量。.

液环：
冷却系统中冷却剂循环的闭合回路。.

歧管：
作为机架内冷却剂的分配中心，歧管管理冷却剂流入和流出冷板的流量，确保均匀分配。.

快速断开连接：
专用连接器，可轻松快速地连接或断开冷却液管路。.

热阻：
衡量材料抵抗热流能力的指标；阻力越低，热传递性能越好。.

导热界面材料（TIM）：
用于增强芯片与散热器或冷板之间导热性的材料。.

泵：
用于在系统中循环冷却剂的装置。.

垂直功率传输：
一种通过将电源模块直接放置在处理器上方或下方来最大限度减少功率损耗的方法。.

AI 数据中心液体冷却的基础知识

概述

液冷速览

词汇表

保持联系