人工智能工作负载正在重新定义现代数据中心的供电需求。超高的电流需求、日益垂直的供电路径以及先进的散热架构意味着,如今的电力工程师必须掌握的知识远不止传统的直流/直流转换。.
本指南解释了如何 20个基本术语 冲击动力系统,组织成 三个部分:
- 供电架构和拓扑结构
- 控制、保护和数字化优化
- 影响电源设计的AI、冷却和系统级趋势
1. 塑造人工智能系统的核心供电架构
现代人工智能硬件的功耗极高——通常每个处理器需要几千瓦的功率——这体现在复杂的、多阶段的功率转换路径中。理解这种功率转换背后的架构是人工智能服务器电源设计的基础。.
高压直流输电(HVDC)
设备内部使用高于 SELV 标准的直流母线电压(通常 >60 Vdc)为高压 DC/DC 转换器供电,从而提高转换效率并支持更高电流的负载,例如 AI 加速器。例如 ±400V 和 +800V。随着机架功率超过 100 kW,采用 ±400 V 或 +800 V 高压直流 (HVDC) 供电成为一种高效的选择。较低的分配电流可以减少铜损、电缆尺寸以及电源到达服务器之前的转换级数。.
IBA – 中间总线架构
数据中心供电方案采用 48V 或 12V 中间母线为电压调节模块供电。系统通常从高压直流 (HVDC) 供电过渡到中间母线 (IBA)——这是一种阶梯式供电方式,首先将电力转换为稳定的中间电压,然后再进行本地调节。在人工智能服务器中,该中间电压通常为 48–54V,选择此电压是为了兼顾安全性和效率。.
DCX – 直流变压器
隔离式、固定比率的DC/DC转换器,可在高功率下提供高效的母线转换。它是基于HVDC架构的关键使能部件。 DCX DCX 采用隔离和固定比例转换技术,在不同电压等级之间传输电力。DCX 允许在最终稳压之前,将高功率、高效率的电力分配到机架或服务器机箱的更深处。.
LLC – 电感-电感-电容谐振转换器
LLC转换器是一种高效谐振转换器,广泛应用于电源领域,以实现低噪声和高密度供电。LLC转换器常用于前端或中间级,以在各种负载条件下实现高效率。其软开关特性使其成为人工智能环境严苛散热条件的理想选择。.
电压调节模块(VRM)
该模块可为处理器或集成电路提供精确的稳压电源。人工智能加速器需要数百甚至数千安培的亚伏级电源。. 车辆参考模块 (VRM)s 是最终的调节阶段,直接将电源输送至 xPU 封装(CPU/GPU/NPU 等——参见第 3 节)。它们的瞬态响应能力是 AI 板卡最关键的性能因素之一。.
TLVR – 跨导电感电压调节器
采用耦合电感器的先进电压调节拓扑结构,可为高电流 CPU 供电。. TLVR 是一种新一代VRM架构,可提供更快的瞬态响应和更高的高电流效率。随着AI加速器对负载阶跃要求越来越高,TLVR设计变得越来越重要。.
VPD – 垂直功率传输
电源架构可将电流直接从电路板边缘输送到高电流ASIC或GPU。为了克服横向PCB布线的限制,, 病毒性血小板减少症 VPD 通过中介层或封装层垂直传输电力。通过缩短电力路径,VPD 提高了分配效率并降低了 IR 压降——这对于高电流 AI 处理器至关重要。.
TDP – 热设计功率
TDP(热设计功耗)是指设备在典型工作负载下持续消耗的最大功率。电源工程师必须了解 TDP,因为它决定了每个 AI 处理器的持续散热极限,进而影响功率预算、模块布局和稳压器密度。更高的 TDP 意味着电气设计和散热设计之间需要更紧密的耦合。.
CESS – 电容式储能系统
利用高容量储能装置(例如超级电容器)的局部能量缓冲系统,可以吸收或提供快速的负载瞬变,并在高性能电源系统(例如AI加速板)中电流突变期间稳定电压。通过在负载附近吸收和释放电荷,该系统能够有效地应对负载的快速变化。 消费社会服务 降低上游转换器的压力,稳定电力分配网络。.
PDN – 电力输送网络
分层式电源分配系统。电源分配网络 (PDN) 涵盖整个电气路径——从机架馈电经电压调节模块 (VRM) 到硅片电源凸点。设计低阻抗 PDN 对于维持电压稳定性以及防止 AI 工作负载性能下降至关重要。.
这些概念共同构成了 结构骨架 现代人工智能能量传输。.
2. 人工智能电力系统中的控制、遥测和保护
由于人工智能加速器会产生高度动态且有时不可预测的电流曲线,现代电力系统依靠智能控制界面、监控功能和强大的保护方案来维持安全稳定的运行。.
PMBus™ – 电源管理总线
用于电源转换器和监视器的数字通信接口标准。. PMBus 为DC/DC转换器提供实时配置和遥测功能。它允许电源设计人员监控AI集群中数千个节点的电压、电流、温度、故障状态和性能指标。.
AVS – 自适应电压调节
AVS允许xPU(CPU/GPU/NPU等——参见第3节)根据工作负载或芯片特性请求精确的电压调整。这可以降低功耗,提高每瓦性能,并稳定AI推理和训练中常见的快速负载变化。.
DLC – 动态负载补偿
动态负载补偿 (DLC) 通过调整控制回路的行为并应用前馈技术,在快速负载瞬变期间稳定转换器输出。DLC 有助于防止 AI 加速器在微秒内从空闲状态切换到满载状态时出现电压过冲和过冲,从而确保电源分配网络 (PDN) 和电压调节模块 (VRM) 保持在容差范围内。.
OCP – 过电流保护
保护转换器、母线和下游设备免受短路或故障等过电流事件的影响。在人工智能服务器中,由于多相电压调节模块 (VRM) 可提供数百安培的电流,快速协调的过流保护 (OCP) 响应对于防止级联故障至关重要。.
3. 人工智能、冷却和系统级趋势驱动着电力需求
为了设计适用于人工智能工作负载的电源系统,工程师必须了解决定电气设计极限的计算和冷却因素。这些系统级趋势会影响从瞬态响应到机架总功耗的方方面面。.
LLM – 大型语言模型
用于生成或分析语言任务的人工智能模型,需要基于海量数据集进行训练。低级语言模型(LLM,例如 GPT 类模型)需要大量的计算资源,因此也需要大量的电力。它们突发性的并行工作负载决定了 VRM、PDN 和本地储能系统必须应对的瞬态特性。.
xPU – CPU / GPU / TPU / NPU / IPU / FPGA
通用术语,涵盖现代人工智能系统中协同使用的所有类型的计算加速器——CPU(中央处理器)、GPU(图形处理器)、DPU(数据处理器)、TPU(张量处理器)、IPU(智能处理器)等。.
HBM – 高带宽内存
3D堆叠式内存可为AI/HPC加速器提供极高的带宽。HBM显著增加了xPU周围的热密度,因此需要严格控制的低压电源轨。它与计算芯片的接近程度会影响VRM的布局和功率级的散热限制。.
D2C – 芯片直接冷却
D2C 它直接为处理器封装上的冷板提供液冷散热。这使得处理器可以显著提高热设计功耗 (TDP),从而影响电压调节模块 (VRM) 和电源分配网络 (PDN) 需要提供的电功率,以及散热和电气设计必须紧密结合的程度。.
CDU – 冷却液分配单元
目前 基民盟 它调节冷却回路内的流量、压力和温度。其性能直接影响允许的电气负载、VRM 温度和系统效率。.
PUE – 电源使用效率
数据中心效率的主要指标是总设施功耗除以IT设备功耗。转换器效率的提升、VRM设计、PDN优化和液冷技术的改进,都有助于大规模提高PUE值。.
结论
人工智能革命创造了一个全新的环境,在这个环境中,电力电子、计算架构、冷却技术和系统级优化密不可分。理解这20个基础术语有助于工程师掌握设计和扩展可靠、高效电源系统所需的知识,以满足当今日益苛刻的人工智能工作负载需求。.
随着架构的演进——更高的热设计功耗、更密集的电源分配网络、先进的电压调节模块和电压保护装置、液冷和高压直流输电——熟练掌握现代电力设计语言变得至关重要。.
为了帮助您不断提升专业技能,我们汇编了业内最全面、持续更新的技术词汇表之一。不妨将 Flex 功率模块的完整技术缩写词汇表添加至收藏夹,以便日后查阅,加深您的理解,并掌握新兴的功率设计趋势: