人工智能(AI)在各行各业的应用正在加速推进。根据…… 麦肯锡, 超过75%的组织至少在一个业务功能中使用人工智能,而这或许仍处于早期阶段。这股热潮背后隐藏着一个紧迫的挑战:如何高效且可持续地为支撑人工智能的基础设施提供动力和冷却。正如人们常说的,无法衡量就无法改进。.
近二十年来,电源使用效率 (PUE) 一直是衡量数据中心效率的黄金标准。它比较的是整个设施的总能耗与 IT 设备消耗的能耗。简单来说,PUE 值越低,意味着更多的电力用于计算,而不是照明或冷却等开销。但人工智能改变了一切。.
为什么仅靠 PUE 指标还不够:常用指标的局限性
PUE(电源使用效率)的设计初衷是面向一个不同的时代——一个以相对可预测的、CPU驱动的工作负载和适中的功率密度为特征的时代。而人工智能工作负载的行为则截然不同。GPU集群的功耗呈脉冲式增长,机架密度攀升至兆瓦级,散热需求也更加迫切。随着人工智能需求的不断攀升,能源短缺和用水量的增长促使人们需要更全面、更精细的评估指标。.
今天的 数据中心的所有设备供电, 这些因素错综复杂且相互关联,一个领域的改进会影响另一个领域的效率。在这种情况下,PUE 可以提供方向性参考,但如果孤立地看待它,则可能会产生误导。例如,PUE 并不能衡量计算资源的实际使用效率。它忽略了水资源消耗、碳排放和能源再利用。在基础设施或利用率发生变化的情况下,PUE 可能会误导人们。.
简而言之,仅凭PUE指标无法解决运营商在追求以平衡且可持续的方式提高每美元代币收益时必须关注的诸多效率问题。这正是这本电子书的核心理念。 超越PUE:人工智能时代的数据中心效率, 它引入了一个更全面的框架来评估和改进数据中心性能。.