渐进式的进步需要指数级的努力。
以 Flex 的四分之一砖为例,其输出功率能力从 2002 年的约 100 瓦增加到 2008 年的 400 瓦,到 2020 年增加到 1.5 千瓦,到 2024 年增加到 2 千瓦。对于电源架构师来说,这种增长不仅仅是功率的增加:它从根本上改变了电流分布、热密度和系统级优化权衡。.
这就引出了一个问题:是什么促成了多年来如此显著的功率密度提升?答案的关键在于效率的提高。观察这些产品,我们可以发现功率密度从早期型号的约 90% 提升到了如今的 97.9% 甚至更高。然而,早在 2008 年,效率就已经接近 96%,因此显而易见,每一个百分点的提升都来之不易。原因在于,从 96% 提升到 97% 并非仅仅是 1% 的提升——而是意味着损耗减少了约 26%。随着效率的提高,损耗的减少会更加显著,因此,从 97.0% 提升到 97.6% 需要额外减少 20% 的损耗。.
这些微小的改进对高密度人工智能机架的影响巨大,因为它们直接影响散热空间、气流需求和冷却架构的选择。然而,这些改进的幅度取决于组件和连接参数,因此,要实现“0.6%”的性能提升,可能只需要使用新一代电阻更低、开关速度更快的半导体器件进行相对较小的重新设计,也可能需要采用全新的转换拓扑结构进行彻底的重新设计。.
例如,实现这些性能提升需要半导体性能和拓扑结构优化方面的进步。现代同步整流器中使用的 MOSFET 具有亚毫欧级的导通电阻、更小的封装尺寸和更低的电容,从而可以采用并联器件策略,降低导通损耗和动态损耗,同时改善散热性能。.
然而,随着开关器件损耗的减少,磁性元件和互连损耗通常占剩余损耗预算的更大比例——这使得绕组电阻和与布局相关的互连阻抗在建模中变得越来越重要。.
效率只是问题的一部分;上图显示,1.5 kW 四分之一砖 DC/DC 转换器的损耗仍然比早期设计所能承受的损耗高出 3 倍以上。物理定律和最大结温并未改变,因此热管理设计显然取得了重大进展。然而,随着现代系统布局密度的增加,散热变得更具挑战性,因为将 1.5 kW 负载放置在靠近转换器的位置会导致严重的交叉发热。.
在高功率应用场景下,一种解决方案是采用与CPU或GPU负载相同的散热技术来冷却IBC(集成电路板),例如在DC/DC转换器的顶部和底部集成散热板,并将其连接到现有的液冷系统中。这样可以减少对通过DC/DC转换器PCB进行热传导的依赖,从而使铜线和连接器引脚能够承载所需的高电流。.
优化整个系统,而不仅仅是部分系统。
从电网到芯片的电源转换链设计在技术上可以逐个部件进行,但为了最大限度地提高系统效率,数据中心运营商必须采取更全面的方法。这是因为优化系统中的某个部件可能会限制其上游或下游部件的功能,从而影响整个系统的效率。俗话说得好:一个优秀的系统远不止是其各个部件的简单相加。.
此外,在设计过程中采用系统级思维,可以实现需要多个部件或组件协同工作的系统级解决方案。诸如动态电压调节和相位切除等数字控制技术,可以通过提高处理器空闲等轻负载条件下的效率来节省能源。然而,这些性能必须在实际工作负载条件下进行评估,而不是基于零散系统设计中常见的稳态假设。.
不要只改进产品,还要改进方法。
四分之一砖功率放大器的发展不再仅仅是为了实现更高的功率密度。如今的电源设计工程师需要承担更多责任,而他们需要合适的工具来完成这项工作。例如,使用诸如以下工具对整个机架内电源路径进行建模: 伟创力电源设计器 这使他们能够比较不同的架构选项、各阶段之间的损耗分配以及动态工作负载条件下的性能。他们更常依赖人工智能本身来进行诸如电效应和热效应模拟之类的操作。他们选择拥有从电网到芯片的完整产品组合的供应商,以最大限度地提高兼容性和可靠性。并且,他们将这种方法应用于整个系统,以确保最佳的效率、热稳定性、性能和正常运行时间。.