2020 年,Uptime Institute 对 152 位数据中心经理进行了一项调查 [1],询问他们所在机构最近一次重大故障的主要原因是什么,其中 371 位经理表示是‘电力故障’。Uptime Institute 还报告称,在 2020 年接受调查的 146 位经理中,有 161 位估计故障造成的损失超过 100 万美元。历史上甚至出现过损失超过 1 亿美元的故障。.
随着从社交媒体到银行业务等各方面对‘云’的依赖程度日益加深,避免计划外停机变得前所未有的重要。当然,实现这一目标已有成熟的技术,通常是在功能上采用冗余设计,尤其是在电源方面,因为电源本身可能成为‘单点’故障。然而,了解冗余程度、剩余运行设备的可靠性以及可接受的故障设备维修或更换的最长时间至关重要——如果无法快速恢复冗余,那么即使拥有故障率高的备用系统也作用有限。.
冗余设计是有效的——但前提是你要进行监控。
冗余设计的基本原则之一是,必须知道故障发生后冗余单元是否已启动。否则,在一段时间内,您将无法察觉到另一个故障可能导致整个系统瘫痪。因此,通常会在任何‘门控’二极管之前监测电源轨,以提供健康信息,从而提示维修或更换。另一个基本原则是,任何聚合监测本身都不能构成危险,例如,不能因为与冗余元件存在公共连接而导致所有被监测设备发生故障,比如在绝缘失效后注入高电压。.
许多处于关键位置的电源转换器都具有‘直流正常’或‘电源良好’信号,可用于指示冗余电源系统的一部分出现故障。然而,现代转换器通常还具备一定程度的数字控制和监控功能,不仅可以在发生故障时发出警报,还可以在故障发生时提供转换器状态的‘快照’。这包括实际输出电流和电压,以及至关重要的部件温度。此时,该功能类似于一个‘黑匣子’事件数据记录器。通常可以通过 I 型接口查询这些信息。2使用 PMBus 的 C 接口® 命令。.
进一步的改进是将数据写入转换器中的非易失性存储器 (NVM),这样即使其动力系统遭受灾难性损坏,诊断数据仍然可以恢复。该原理也适用于非冗余配置,在这种情况下,由转换器或负载故障引起的突然功能丧失在短期内可能可以容忍,但了解故障发生时的条件仍然很有用。如果故障是由负载引起的(并以某种方式发出信号),则功率转换器电流以及温度监测也可能提供有关故障原因的线索。.
为了实现这一点,可以利用电源转换器记录数据的‘时间戳’功能,将故障日志与外部事件关联起来。例如,如果负载发生短路,转换器将关闭,并记录该事件及其时间,以便稍后与其他外部事件关联。Flex 电源模块就是一个具有这种一次性编程‘黑盒’功能的电源转换器示例。’ BMR350系列. 这是一个峰值功率为 1200 W、底板冷却、四分之一砖型的 DC/DC 转换器,带有 PMBus 接口。® 允许访问在故障情况下收集的‘事件数据记录器’信息的接口。.

图片: Flex 电源模块的 BMR350 内置 OTP 故障事件数据记录器
其他电源转换器具有连续运行的事件记录器
更进一步,可以在正常运行期间持续监测并记录‘生命周期事件’的时间戳。这些事件包括累计运行时间、异常电流需求、过电压瞬变后的自动复位,以及其他一系列参数。数据可用于识别各种趋势,例如由于风扇过滤器堵塞导致的温度逐渐升高,或电源转换效率随时间推移而下降。通过分析,可以预测磨损故障,并实施基于状态的维护 (CBM)。这种维护方式是指在部件需要更换时,而不是在发生故障之前或按照任意的固定间隔更换,而是在发生故障之前就进行更换。这既节省了人工和硬件成本,又最大限度地延长了正常运行时间。.
Flex 电源模块就是一个能够持续覆盖事件数据记录器的电源转换器的例子。 BMR491. 这是一个峰值功率为 2450 W、底板冷却、四分之一砖型的 DC/DC 转换器,带有 PMBus 接口。® 界面再次允许访问‘事件数据记录器’信息。.

图片: Flex 电源模块的 BMR491 内置可重写生命事件数据记录器
Uptime Institute指出,硬件可靠性正在提高,但新数据中心的部署速度和依赖程度使得监控、寿命预测和故障诊断仍然日益受到关注。‘黑盒’功能有望对此有所帮助。.
参考