
对基于人工智能的计算能力的旺盛需求,迫使企业在应对运营复杂性、技术进步和紧迫的建设时间表的同时,重新思考数据中心基础设施。由于竞争力与数据中心容量紧密相关,选择合适的合作伙伴来大规模提供下一代电力和冷却解决方案,对于数据中心运营商的增长战略至关重要。
在本电子书中,您将发现以下方面的创新解决方案:
- 电网到机架电源
- 机架内电源解决方案
- 芯片级电源管理
- 直接芯片冷却
- 微对流冷却技术®
- 集成机架设计
- 数据中心生命周期服务
- 循环经济服务
人工智能 (AI) 将成为未来五年 IT 领域的主导力量, 到2030年创造15.7万亿经济机会对基于人工智能的计算能力的旺盛需求迫使企业重新思考数据中心基础设施,因为他们正在努力应对运营复杂性、技术进步和紧迫的建设时间表。因此,全球 预计到 2029 年,数据中心资本支出将超过 $10 亿美元. 政府将增加数十亿美元的投资,例如美国支持的 $5000 亿美元的星际之门项目
为了满足人工智能日益增长的计算需求,所需的基础设施也促使企业以创新的方式解决电力、散热和规模问题。企业云服务提供商 (CSP) 正在引领生成式人工智能大型语言模型 (LLM) 的开发,并探索传统数据中心电源、机架和机房配置以及冷却技术的替代方案。他们还在改进全球制造、供应链和库存管理以及数据中心生命周期服务的方法,以缓解数据中心扩展的限制。集成解决方案尤其受到关注,帮助他们管理技术、运营和监管复杂性的合作伙伴合作也同样受到关注。
Flex 凭借其独特的从电网到芯片的全面能力、全球制造专长、完善的供应商网络以及全面的服务,致力于在全球范围内设计、构建和维护数据中心基础设施,以满足人工智能时代的需求。公司专注于创新,并能端到端地洞察数据中心需求,这使得 Flex 能够提供卓越的电力和冷却解决方案,帮助数据中心运营商克服当今快速增长、高密度计算环境中固有的挑战。
OpenAI 于 2022 年推出 ChatGPT,震惊世界。此后,生成式人工智能模型发展迅速,其与副驾驶和聊天助手等主流应用的集成也日益增多。如今,研究人员正在大力发展代理式人工智能 (Agentic AI),这种人工智能能够做出决策、解决问题,并在有限的人工监督下工作,远远超出了生成式人工智能“学习和模仿”的能力。他们还在探索无需明确提示即可行动的环境代理用例。随着人工智能技术的快速发展和各行各业的纷纷采用,超大规模企业正以惊人的速度投资 AI 就绪数据中心,以推动模型训练和优化,而这两者都需要强大的计算能力。到 2030 年,几乎 美国和欧洲 65% 的人工智能工作负载将由超大规模企业承担其余部分则由科技公司和小型企业负责私人托管。
19%–27% 增加 全球数据中心容量需求 2023年至2030年,主要受对高级人工智能工作负载的渴求所驱动。
— 麦肯锡公司
高性能 AI 工作负载所需的基于矢量处理的计算并行性依赖于加速平台,这些平台主要使用图形处理单元 (GPU) 同时执行复杂计算,以加快模型训练和推理速度。它正在重新定义计算的方方面面,从内存技术到数据存储层次结构,再到数据中心网络拓扑。高带宽内存 (HBM) 设备支持低延迟数据访问,这是训练 AI 集群的关键要求。创新型固态硬盘 (SSD) 正在取代传统硬盘 (HDD),以满足超大规模计算企业的容量需求,其中包括全球首款 100+TB SSD。基于标准的超级以太网和超级加速器网络链路在降低供应链风险方面越来越受到青睐。随着超大规模计算企业寻求加速大型计算集群内节点到节点的数据传输,光纤网络可能很快就会占据主导地位。
总的来说,人工智能时代所需的技术进步正在推动运营技术的重大变革,尤其是在 数据中心电力和冷却基础设施.
耗电加速计算平台的建设正在 数据中心电力需求旺盛到2020年,全球能源需求量可能达到1,070TWh,是2020年需求量的三倍多。
超大规模数据中心运营商正在投资建设新的数据中心以提升容量,但将专为加速计算而设计的数据中心投入使用可能需要数年时间。在此期间,现有数据中心在机架内和关键电力基础设施方面面临着巨大的压力。例如,计算密度的提升正将机架功率需求推高至 100kW 甚至更高,创历史新高。
我们已经做好了准备,要将计算规模和软件开发提升到前所未有的水平。未来十年,我们希望每年的性能都能在规模上翻一番或三倍——不是芯片规模,而是规模……我们将进入某种超摩尔定律曲线。
数据中心运营商需要获得更多的电源,一旦获得保障,就需要能够有效地从电网、设施和机架,最终分配电力到芯片。可再生能源,例如 核能发电越来越受到人们的关注,并正在使用电力基础设施的升级、直流电力输送的迁移以及其他技术来提高从电网到芯片的效率。
挑战始于设施层面,而这首先取决于电网的电力输送。长期购电协议用于确保可再生能源的接入,以便为现有设施提供增量电力,或为新建数据中心建立可靠的电力供应——但这并不意味着关键电力基础设施已经到位,可以利用这些电力。
数据中心运营商正在改进机架的供电方式,以支持 AI 工作负载,例如 NVIDIA GB200 NVL72 百亿亿次级计算机所需的工作负载。作为单个海量 GPU,其每机架预计需要 120kW 的电力, 广泛的商业部署即将到来数据中心运营商还与关键电源专家合作,提供可支持 500kW(路线图为 1GW)的下一代配电单元 (PDU),以满足预测需求。
定制, 模块化电源舱解决方案 从 Flex 开始,包含将设施连接到电网所需的所有关键电力设备,从而能够快速、经济高效地为绿地和棕地数据中心部署电力容量。
一旦设施配电到位,运营商必须关注机架内需求。Flex 设计了 定制电源架 提供高达 125kW 的功率来满足不断增长的 AI 需求,推动技术创新以支持不断发展的计算基础设施需求。
此外,Flex 与超大规模数据中心之间的合作带来了以下创新: 电容储能系统 旨在解决 GPU 在 AI 训练和推理计算过程中每隔几秒就会产生 1MW 至 2MW 的功率波动问题。解决这一挑战至关重要,因为功率波动可能会导致数据中心根据公用事业许可要求无法连接到电网。
芯片级电源管理对于加速计算平台部署至关重要。供应商和数据中心运营商通常会在设计过程的早期阶段(通常是在产品正式上市前几年)与嵌入式电源产品公司合作。许多此类公司与 Flex 合作开发 电源模块 that increase efficient power distribution to GPU, central processing unit (CPU), field programmable gate array (FPGA), and custom application-specific integrated circuit (ASIC) designs. Accelerated computing is driving innovation in this space as well, with some of the latest power module designs for intermediate bus converters delivering continuous power of 2,000W and up to 3,000W peak power with over 98 percent peak efficiency.
加速计算不仅会带来功耗的增加,也给机架级冷却解决方案带来了巨大的挑战。例如,一个100kW的机架每小时会产生超过340,000 BTU的热量,相当于34个标准家用暖气炉满负荷运转。
虽然这在今天是一个相对较小的用例——平均机架功率要求仍在 12kW 范围内——但超大规模企业正在推动对创新冷却技术的需求,以支持密集的 AI 服务器集群。
液体冷却在汽车和航空航天工业中已应用数十年。其在数据中心的部署历来侧重于政府和学术机构使用的高性能计算集群。随着对超越传统风冷能力的冷却解决方案的需求日益增长,这推动了液体冷却解决方案的创新。
空气冷却是数据中心基础设施的传统冷却方式,其有效功率可达每机架约 50kW。但人工智能和高性能计算有所不同,机架功率密度的上升意味着需要过渡到液体冷却。随着超大规模数据中心部署越来越多的 GPU 集群,人们越来越意识到 液冷机架和冷却液分配单元(CDU)最适合在高密度环境中散热.
CDU 是闭环液体冷却系统中的专用设备,可精确管理冷却液的温度和流速,确保最佳冷却效率。通过控制流向 IT 设备的冷却液流量并将其返回到设施的水中再冷却,CDU 可以稳定温度并降低过热风险。在有设施用水的情况下,液-液 CDU 可以将热量从 IT 设备的冷却液回路转移到设施的水回路进行再冷却,从而进一步稳定温度,降低过热风险,并将设备与液体隔离。
目前 JetCool SmartSense CDU 是一款高性能机架式液冷 6U 冷却分配单元 (CDU),专为处理 GPU 密集型高功率机架的强热负荷而设计。其单机架或相邻机架的冷却能力高达 300kW,并可扩展至行级配置,提供 2MW 以上的冷却能力,确保数据中心高效可靠的冷却。SmartSense CDU 与 JetCool 先进的冷却板搭配使用,即使在计算最密集的环境中也能提供完整的端到端解决方案。SmartSense CDU 结合了 JetCool SmartPlate 冷板,为高功率处理器(包括超过 1,500W 的处理器)提供业界领先的冷却解决方案。
微对流技术因其高效的传热性能,已被证明适用于高功率密度应用,其通过一系列流体喷射直接作用于热点。与微通道冷板技术相比,该方法可将热阻降低高达 40%,并且可用于直接到芯片和直接到封装的配置,而无需更改芯片组件。JetCool 已获得其专利 微对流冷却技术 专为满足当今数据中心、高性能计算和人工智能应用的苛刻要求而量身定制。
微通道冷却
微通道液体冷却依靠通过小型内部流体通道平行、均匀地扩散热量。
微对流冷却
微对流液体冷却采用定向垂直喷射来直接冷却处理器热点, 提高效率和性能.
Flex 直接与芯片制造商合作,为其各自的处理器系列定制冷却板。该公司最近推出了符合开放计算项目 (OCP) 标准的液冷服务器设计系列,面向寻求定制加速计算平台的超大规模企业。
随着人工智能时代计算的复杂性和规模不断增长,整合计算、存储、网络、电源和冷却技术的集成系统机架设计势在必行。为了平衡机架标准化和定制化,OCP 推出了 Open Rack v3(ORv3)规范 提升集成机架解决方案的设计和交付效率,满足超大规模数据中心的多项设计要点。创新的高密度机架实现了单位面积计算性能的突破,在支持可扩展性的同时,提升了数据中心容量的投资回报率 (ROI)。
通过与 Flex 合作,领先的超大规模数据中心运营商正在大规模部署基于 ORv3 的定制机架设计。他们还利用 Flex 来管理数据中心机架解决方案的垂直整合,涵盖从钣金框架和机柜的制造,到服务器、存储、机架、布线、交换机、母线、电源架、备用电池和液体冷却系统的设计和制造。例如, Flex 的 ORv3 兼容机架 目前已集成单相直达芯片液冷,并可支持双相液冷,为客户提供选择。
但正如计算供应短缺限制了数据中心的增长一样,变压器、开关和发电机等关键电力设备的缺乏也导致了电力输送多年的延迟。 世邦魏理仕最新报告超大规模企业还指出,无法扩展正在影响新兴液体冷却解决方案的更广泛部署。
随着计算、供电和制冷架构的不断发展,数据中心运营商需要依赖能够协作和扩展的公司来支持其发展路线图,并确保数据中心升级和容量按时上线——这些公司拥有设计、产品、制造、供应链、系统集成和开放生态系统方面的经验。快速部署现有和新的数据中心需要可靠地交付创新的供电和制冷解决方案。
Flex 能够在北美、欧洲和亚洲生产产品,从而提高产能、缩短交货时间,并能够在全球范围内快速部署创新数据中心电力和冷却解决方案。
数据中心运营商正全力以赴地向人工智能时代的功能转型。单单一条供应链延迟就可能造成数十亿美元的收入损失,并使其在人工智能领导地位的竞争中落后。但供应链中断——无论是地缘政治、物理因素(例如港口堵塞)还是劳动力相关——并不少见。需求超过产量时造成的限制也并非罕见。2024年,该行业经历了GPU加速器和高带宽内存的供应受限,市场持续面临严重的电力基础设施短缺。
随着新技术需求的激增,数据中心运营商也面临着同样的压力。在扩大规模和最大化投资回报率的压力下,他们正在寻求在基础设施优化和控制方面获得竞争优势,从设计到部署再到生命周期结束。因此, 部署服务预计将增长 到 2030 年,每年的能源支出将超过 $1100 亿,凸显了在电网和设施可用时计算能力交付的关键性。
专家对各种履行方案的运营、财务和环境影响进行分析,可以发现重大的改进机会。Flex 利用其专有的模拟工具发现,建立一个单一的垂直集成机架履行站点可以帮助一家超大规模企业:
降低成本 20%
缩短2天的交货时间
减少700万公斤二氧化碳排放2
目前估计,服务器停机一小时相当于 收入损失超过 $300,000车队管理——维护、维修、翻新和负责任的资产处置——不仅对于最大限度地延长正常运行时间至关重要,而且还能很好地利用由 循环经济旨在尽可能长时间地保持材料和产品的循环利用。拥有车队管理专业知识和循环经济学科的合作伙伴可以帮助超大规模企业回收可重复使用的零件和材料,实现企业可持续发展目标,遵守环境法规,甚至开拓新的收入来源。在上面展示的模拟中,超大规模企业还可以通过选择单一地点进行配送,将接收和拆卸机架的总成本降低35%。
With competitiveness and data center capacity tightly intertwined, choosing the right partner to deliver next-generation power and cooling solutions at scale is central to data center operators’ growth strategies. Flex enables companies to expand data center capacity faster and more cost-effectively with advanced manufacturing, a robust portfolio of critical and embedded power and cooling solutions, vertically integrated system rack manufacturing services, and end-to-end lifecycle services available in every major region of the world. Flex offers:
先进制造服务
支持垂直集成数据中心机架的大规模部署,从材料采购和自有品牌组件到服务器、存储、机架、电缆、交换机、母线、电源架、冷却技术和电池备用的设计、履行、制造和维护。
电源产品
使数据中心运营商能够通过创新的关键电源基础设施(如开关设备和 PDU)以及服务器和机架级嵌入式电源(如电源模块和电源架)更有效地管理电源。
冷却技术
包括直接芯片液体冷却模块和冷却液分配单元,以解决热密度和增加机架功率的挑战。
专业的端到端功能
优化和简化产品生命周期,并在全球范围内以更高的质量、生产力和速度为客户无缝且可持续地大规模设计、制造、交付和提供产品服务。
利用先进的制造服务、创新的电源和冷却产品以及 Flex 的数据中心服务,加速数据中心基础设施的大规模扩展。