联系我们

电能质量:数据中心面临的一些最大挑战背后隐藏的现象

Christopher Butler,Flex 工业业务总裁
经过 Christopher Butler
嵌入式和关键电源事业部总裁
发表于
2025年9月22日
博客 Data Center Power 领导力见解 电源

电能质量特性和后果

电能质量是指供应给数据中心的电力的可靠性、稳定性和清洁度。计算密集型、时间敏感的人工智能处理和推理尤其容易受到电压波动、频率偏差、谐波、断电和瞬态(一次性)事件等电力异常的影响。其后果可能立竿见影,且十分严重。

来源: 正常运行时间智能

电能质量差可能导致:

  • 处理器错误、内存不稳定以及存储系统故障会中断数据访问并损坏结果
  • 不可靠、不可重复的训练结果、延迟峰值和超时会影响模型和算法的完整性
  • 影响跨多台服务器运行的大型 AI 工作负载的节点故障
  • 系统重启或活动会话中断
  • 高密度人工智能机架中的电源单元或转换器过热
  • 系统节流启动热关机以保护组件
  • 变压器故障,停机成本可能特别高;目前新变压器的交付周期可能 两到四年 — 即使对于那些操作冗余系统的人来说也是一种风险

电网不是为此而建的

电网的建造是为了应对典型的供需周期,平滑峰值和低谷,并适应不规律的电力供应。尽管将能源转化为可用电能并进行可靠输送本身就很复杂,但在大多数情况下,电网都能很好地完成这些任务。

但世界上许多基础设施都建于20世纪60年代和70年代,当时的用电情况更容易预测和管理。那个时期常见的白炽灯、交流电机和模拟设备产生的是线性功率负载,不会影响电能质量。它们消耗的电流与施加的电压成正比。

现代数字环境则截然不同。例如,服务器、LED照明和变速暖通空调机组会产生非线性、尖峰负载,需要更复杂的电能质量管理。与过去的每日峰值和季节性特征不同,由于人工智能数据中心、加密货币挖矿和“万物电气化”趋势的需求变化,峰值可能随时出现。

此外,电网本身现在也受到太阳能和风能等可再生能源变化的影响,这些能源的可预测性远低于化石燃料或水力发电。系统中的不确定性大大增加。传统的公用事业规划框架在设计时并未考虑到所有这些因素。

来源: 正常运行时间智能

数据中心与共享资源

说到人工智能时代数据中心的电力消耗,不妨这样想。每次打开开关,都会扰乱能量的流动。开,关,再开,再关。

这基本上就是微芯片的功能,只是如今的先进版本每秒可以数十亿次地开关电流,并且会消耗大量的电能。考虑到一个超大规模数据中心可能部署数百万个 GPU、CPU、NPU 和 TPU,你就能明白公用事业公司面临的挑战了。

芯片 代表 它的用途电力需求
中央处理器中央处理器运行操作系统和应用程序的通用计算中等的
图形处理器图形处理单元最初用于图形,现在广泛用于人工智能、游戏和模拟中的并行处理高的
西北大学神经处理单元加速图像识别和语音处理等人工智能任务;常用于手机和边缘设备低至中等
TPU张量处理单元谷歌专门为深度学习模型的高速训练和运行而设计的芯片高的

为什么? 因为电网是一种共享资源。公用事业工程师在设计和维护电网时,首先要考虑三个技术因素:电能质量、可靠性以及供需平衡。他们这样做是为了所有使用电网的人,从家庭、小企业主到庞大的科技园区和大型制造工厂。一个因素造成的中断会影响所有人。

“肮脏”电力:罪魁祸首是数据中心吗?

简短回答:有时确实如此。通常,电压遵循以平滑周期性振荡为特征的滚动波——正弦波,如图 1 中的绿线所示。20 世纪 90 年代中期制定的稳态负载国际标准,规范了谐波电流、电压闪变和其他因素,为数据中心运营商提供了良好的服务。一些运营商甚至为自己的设施制定了额外的、更严格的标准。

但人工智能模型会导致用电量突然大幅激增,使数据中心内的“空白区域”(即服务器、存储和网络设备等IT设备的房间)成为失真的根源。快速、不均匀的突发供电会产生谐波,从而扭曲电压波形(蓝线和黄线)。

这就像不断地把大小不一的鹅卵石扔进一个小池塘,看着涟漪在从岸边反弹回来时碰撞变形。服务器中用于调节电压的高频开关会进一步增加电噪声。而热浪等极端天气事件会进一步放大谐波,因为变频器 (VFD) 会调节冷却风扇的供电频率和电压,而这些风扇位于数据中心的“灰色空间”,也就是配电、冷却系统和发电机所在的区域。借用一句话来说,“我们已经看到了敌人,那就是我们自己。”

如果没有得到妥善过滤,所有这些干扰都会反馈到电网本身,不仅会干扰数据中心的电力供应,还会干扰电网上所有用户的电力供应。电能质量问题可能会损坏医院、工厂、电信网络和其他场所的敏感设备。变压器可能发生故障,导致整个区域停电。

充斥着谐波、电压畸变、瞬变、不平衡和其他不规则现象的“脏”电也会增加能源损耗,因为发电和输电效率会降低。由于谐波会增加电气设备中的热量,级联效应会显著影响数据中心的电源使用效率 (PUE),因为能源损耗会增加,能源效率会下降,额外冷却需求会增加,功耗也会激增。

谐波失真图

图 1. 谐波失真。

真实案例——以及次谐波的新解决方案

虽然以人工智能为中心的数据中心仍占少数,但麦肯锡公司预测,到 2030 年,大约 70% 的新数据中心容量将用于支持高级人工智能工作负载。此外, 74% 的主机托管服务提供商 根据 Uptime Institute 的一项调查,许多数据中心运营商已开始投资基础设施升级,以满足客户的 AI 需求。对 AI 和 HPC 应用的需求正在推动机遇,但随着新挑战的出现,也导致数据中心运营商暂停运营。

例如,一家超大规模数据中心运营商告诉我们,他们扩建的数据中心可能会导致其所在地200英里半径范围内的电力中断。换个角度来看,如果该数据中心位于巴黎,其影响甚至远至布鲁塞尔和伦敦郊区都能感受到(图2)。另一家运营商表示,他们今年将购买足够的发电机,为拥有270万人口的芝加哥市供电。

我们一直与超大规模客户合作,开发能够应对 AI/HPC 计算诸多挑战的解决方案。其中一个解决方案就是我们突破性的 电容式储能系统(CESS). 这项新技术可以在电气负载突然变化引起的大功率瞬变(电压或电流浪涌)期间支持和平衡电源。

描绘法国巴黎周围 200 英里半径范围的地图

图 2. 法国巴黎周围 200 英里半径范围内。

在测试过程中,我们发现,虽然可以通过多种方法缓解人工智能工作负载带来的谐波问题,但次谐波问题依然严重——这并非电力系统本身的问题,而是由于负载波形在电源中反射造成的。次谐波是指频率仅为基频一小部分的振荡,而负载脉冲会加剧次谐波。虽然这听起来可能无害,但次谐波不仅会降低电能质量,给本地发电机带来问题,还会破坏直流/直流转换器的稳定性,导致设备过热,并导致设备过早故障——而有源谐波滤波器、谐波抑制变压器和UPS系统等电源解决方案都无法解决这些问题。

输入电源谐波分析图 - 0.1 Hz 脉冲/占空比 = 20%。

图 3. 输入功率谐波分析 — 0.1 Hz 脉冲/占空比 = 20%。

Flex CESS 能够抵消次谐波,而不会增加功耗和散热需求,也不会缩短运行 AI/HPC 工作负载的芯片的使用寿命 [图 3]。这不仅解决了数据中心内部的电能质量和可靠性问题(例如本文开头提到的问题),还能防止次谐波对电网本身造成负面影响。

Flex 还与 Comsys 合作,利用其 ADF 主动动态解决方案组合来监控数据中心电源并每秒数千次补偿电气缺陷,以减少电压干扰并稳定电网。

清理以加速

运行 AI/HPC 工作负载的运营商必须找到既能满足需求,又不影响其他用户电力供应的方法。随着数据中心负载的不断增加,公用事业公司正在更新其互连规则,有些甚至要求 提交经过验证的负载模型。美国联邦能源管理委员会正在密切关注 直接电力输送共址安排.

随着计算能力的增强和数据中心的激增,“安全总比后悔好”是一条宝贵的经验法则。一般来说,电网是污染电力的接收端。如果电网基础设施老化或超负荷,可能会将干扰波及到污染源和其他用户,这不仅会带来财务和运营风险,还会损害公司的声誉。

数据中心运营商应尽最大努力清理这些垃圾,其方式如下: 

  • 在系统设计之前就谐波进行咨询,以便提前缓解问题并制定灵活的策略,轻松适应扩展和升级
  • 不仅考虑谐波,还要考虑次谐波——并使用 Flex CESS 等解决方案来缓解它们
  • 部署有源“智能”谐波滤波器,持续监测电流,并在检测到谐波时注入反信号,以防止谐波潜入电网
  • 使用功率因数校正设备(例如电容器组或动态补偿系统)来减少电力“泄漏”,并提高电气系统的效率
  • 安装隔离变压器以限制数据中心内的噪声和谐波
  • 与公用事业公司合作,通过智能电网协调来预测和平滑大型人工智能负载
  • 遵守公用事业互连标准,例如 IEEE 519(美国)和 EN 50160(欧洲、中东和非洲地区),这些标准规定了谐波失真水平的限制 - 如果不符合这些标准,可能会导致经济处罚 - 以及涵盖 EMI(机电干扰)发射和接收的 IEC 61000 系列

通过系统级解决方案解决系统级挑战

高电能质量是幕后英雄——当它好的时候,一切都会顺利进行。灯亮了,机器运转了。但一旦电能质量开始下降,后果就开始累积。这些后果可能悄无声息地出现,例如那些未被发现的谐波,却在远离源头的地方引发看似神秘的设备故障。它们可能通过电压下降或变压器烧毁来突显其存在,导致电力系统立即中断(有时甚至是不可逆转的中断)。它们也可能以信息灵通、积极主动的公用事业公司的身份出现,试图平衡所有利益相关者的需求。

电能质量是一个系统级问题,需要系统级解决方案。Flex 与领先的芯片公司和数据中心客户紧密合作,根据产品路线图和不断变化的架构,主动应对预期的电能质量挑战。凭借全套关键嵌入式电源产品以及直接芯片冷却解决方案,我们独特的优势从电网延伸到芯片,为客户提供宝贵的洞察,从而为复杂问题提供全面的解决方案。