隐藏的风险正威胁着人工智能数据中心的快速扩张

这就引出了我们的…… 数据中心基础设施就其本身而言。在‘与’等式的尺度方面，有三个轴同时发生，所有这些都涉及棘手的、相互关联的工程问题需要解决：

机架内扩展 — 当功率密度从几年前的 10-20 kW 大幅提高到即将到来的 1 兆瓦以上的机架时，如何高效地输送电力并有效地散热？
机架间横向扩展 — 当电源转换架构、母线设计等因素影响下，如何设计大规模、低延迟的连贯计算集群？, 高性能网络, 冷却回路是否都需要围绕计算拓扑结构重新架构？
跨设施扩展 — 如何以极快的构建速度，将构建时间从数年缩短到数月，在全球数十个或数百个站点复制基础设施？

在‘两者兼顾’的复杂性方面，规模的扩展（包括纵向扩展、横向扩展和横向扩展）正在飞速进行，与此同时，每个机架的计算能力、站点能耗、组件种类以及供应链SKU也在呈指数级增长。这才是挑战的核心——它并非单一的难题，而是诸多难题同时发生，且彼此相互关联。.

本系列博客文章将探讨在人工智能数据中心规模化竞赛中，那些隐藏在表面之下的风险：

拓扑结构的变化 — 工程师们正在缩减下一代数据中心电源获取、基础设施和部署方面的工作。.
市场混乱 — 大家都在积极扩张，但扩张的方式和速度却不尽相同。.
标准脱节 — 安全和技术标准存在重叠、冗余或无法跟上变化的速度。.

拓扑结构的变化：一次快速而根本性的转变

第一个潜在风险是拓扑结构的变化。数据中心的物理架构正在经历根本性的重新设计，而非渐进式的演进。而且，这种重新设计的步伐比大多数组织的常规设计周期都要快。拓扑结构的变化主要体现在三个方面：电力、冷却和设施布局。

电源架构

行业正从 48V 机架电源过渡到 400VDC 和 800VDC 配电。这并非个人偏好，而是物理规律驱动的必然结果。更高的电压可以降低向机架供电所需的电流（功率 = 电压 × 电流），这意味着可以使用更细的铜导线，从而显著降低电阻损耗。此外，它还允许将电源转换装置从 IT 机架移至外部电源架或侧柜。通过重新安置电源转换装置，机架内的全部空间都可以用于计算。当功率密度接近每机架 1 兆瓦时，这种架构已是必然之选。

向更高电压的转变也推动了垂直供电架构的重新设计为了最大限度地减少电源传输网络 (PDN) 损耗。由于这些损耗集中在负载（执行计算的芯片）附近，因此将电源转换移至更靠近 GPU 的位置，而不是依赖长距离的降压路径，可以降低能耗。

在 Flex，我们目前正在交付 400 VDC 系统，并且 800 VDC 系统即将投入部署，预计到 2030 年将得到广泛采用。.

冷却架构

传统的风冷系统每个机架的有效制冷量约为 50 kW。这远低于人工智能工作负载的功耗。 NVIDIA GB200 NVL72 该产品设计用于机架级约 120 kW 的功率。整个生态系统的发展路线图表明，下一代平台的机架级功率将超过 200 kW。在如此高的功率密度下，空气冷却无法有效散热。因此，液冷（其热力学效率远高于空气冷却）成为所有 AI 基础设施部署的首要考虑因素。

有几种技术方法可以实现液体冷却, 它们并不等同，各自具有不同的运行特性。例如，直接对芯片进行冷却的冷板对于需要高热设计功耗 (TDP) 的设备来说效率最高。我们提供的冷板设计能够处理 TDP 超过 3000 W、热负载超过 500 W/cm² 的 GPU 和加速器。微对流冷板技术利用 800-900 个局部流体喷射阵列，针对芯片级的热点进行冷却，从而实现更高的冷却剂温度（入口温度可达 42°C 或更高），进而减少甚至消除对冷却器的需求，并显著降低水的消耗。

开放计算项目 (OCP) 和更广泛的生态系统已将液冷机架的流量目标设定为约 1.5 LPM/kW，高于早期产品常见的约 1.0 LPM/kW。机架级冷却分配单元 (CDU) 的设计功率已达 300 kW，流量接近 400 LPM。在行级，多机架 CDU 系统的功率已达到兆瓦级，需要数千 LPM 的冷却液流量。这些是当今定义 CDU 设计的工程参数。

物理拓扑

机架密度的提高也改变了机房的物理布局。由于不同部署场景下机架的高度、重量和空间需求各不相同，因此必须重新评估诸如地板荷载、网络路径和天花板净空等结构性因素。与此同时，数据中心机房的物理布局也变得更加灵活，需要进行调整以适应更高密度区域、不同的设备尺寸和新的维护需求。.

为了适应这些变化并加快产能建设，机械、电气、热力和固件系统之间的集成在设计周期的早期阶段就开始了。.

数据中心运营商正在采用模块化设计，以弥合人工智能驱动的需求与传统建设时间表之间的差距。.

原因之一： 在运行中的数据中心现场调试复杂的液冷高压直流系统是进度风险集中的地方，而这种规模的项目，每一次调试延误都会造成高昂的成本。.

预制模块化数据中心 (PMDC) 解决方案这些工厂预制、预设计的单元可实现可扩展、可预测且高效的容量扩展。工厂先行方案将电力和冷却功能集成到交钥匙单元中，提高了性能可预测性，简化了安装，并允许模块生产和现场施工同步进行。我们发现，PMDC解决方案可以将项目工期缩短30%甚至更多，同时显著减少现场劳动力需求。此外，由于PMDC解决方案在工厂进行了预接线和预测试，现场测试和布线工作量最多可减少70%，现场变更也降至最低。.

施工和供电安全也是推动PMDC解决方案普及的重要因素。当复杂的集成在工厂完成时，这些解决方案运抵现场时已具备经过验证的保护和联锁功能。在部署之前，所有集成系统都会进行模拟故障测试，从而降低人员、设备和设施的风险。.

紧急需求，协同解决方案。.

人工智能计算基础设施的需求曲线与科技行业以往面临的任何情况都截然不同。在全球范围内，数据中心电力需求激增。五年内翻了一番, 人工智能的能源消耗正在增长 4.5 倍。. 超过1TP35万亿美元 2026年将投入资金用于数据中心扩建。.

人工智能数据中心规模化的竞赛真实存在且迫在眉睫。工程难题的确十分棘手，并非因为相关技术不存在——它们确实存在——而是因为拓扑结构、市场结构和标准的变化速度远超行业应对这些变化进行设计、认证和部署的能力。.

每个人都担忧的那些制约因素——电力、供应链、可持续性——并不会消失，反而会不断叠加。成功的组织会协调应对这些制约因素，而不是逐个应对。答案并非单一技术，也并非某一家公司，而是切实行动。对于不断变化的网络拓扑结构而言，这意味着要设计系统而非部件，并且从一开始就将机架和数据中心视为集成架构。

下次，我们将更深入地探讨数据中心建设中第二个同样影响深远的隐患：市场混乱.

隐藏的风险危及人工智能数据中心的快速扩张

‘规模化竞赛’系列：1/3