面向人工智能的网络：超越芯片的变革

发表于
6 2026 年 3 月

数据中心 IT基础设施

企业已将人工智能视为一项竞争优势，其应用案例也层出不穷。强大的GPU在处理海量数据的竞赛中，凭借其卓越的性能吸引了众多目光，并占据了相当大的市场份额。这项技术固然令人瞩目，但支撑人工智能计算的其他硬件又如何呢？

如果说计算机是数字世界的大脑，那么网络就是中枢神经系统——而它自身也正在经历一场重大变革。. 欢迎来到高性能人工智能网络时代。.

为什么人工智能需要专门的网络？

GPU价格昂贵，尤其是大规模AI工作负载所需的GPU数量。配备70多个GPU的高性能机架式超级计算机平台需要数百万美元的资本支出。企业和云服务提供商在先进芯片组上投入巨资，他们不希望网络瓶颈拖慢速度。过去25Gbps的传输速度对于业务应用数据来说绰绰有余，但在AI训练中常见的1600Gbps（1.6太比特/秒）的传输速度下，这种速度就显得远远不够用了。高带宽、低延迟的AI网络基础设施是必不可少的。.

折线图显示了 1980 年至 2025 年常见 LAN 标准的数据传输速率，随着时间的推移，各点逐渐增加，并在 2010 年后急剧上升，达到多千兆比特的速度。.

过去十年，局域网数据传输速率呈指数级增长，预计到 2026 年，某些标准的速度将达到 25.6 Tbps，这更加凸显了数据中心运营商必须确保使用最新技术来使其站点面向未来的必要性。.

人工智能网络拓扑：向上、向外和向内扩展

在计算节点之间进行人工智能数据传输时，减少网络瓶颈并非易事。人工智能网络面临三重挑战：机架内部的纵向扩展、机架间的横向扩展，以及在因空间或电力限制而需要分布式人工智能网络时，跨数据中心设施的扩展。.

扩大规模

扩展规模的挑战主要在于如何以低延迟、高带宽的连接方式将机架中的所有GPU连接起来。机架内部的铜缆网络带宽有限，服务提供商正越来越多地将这些连接迁移到光纤，以最大限度地减少网络拥塞和数据丢失，而这些参数将随着GPU的发展而不断变化。可能需要专门的AI互连方案。.

蓝色线条艺术插图，描绘了一个齿轮，箭头分别指向上、下、左、右，表示多方向操作或系统集成。.

横向扩展

当数据中心连接数百个机架时，管理拥塞就成为一项挑战，因为多个数据流会争用相同的带宽。先进的协议使最小点架构能够利用网络交换机优化东西向的AI流量，从而在GPU之间提供成本优化、高容量、低延迟的连接。.

跨扩展

当大型 AI 工作负载无法在单个数据中心内处理时，跨数据中心扩展交换机可以将多个数据中心的 GPU 统一起来，使它们能够像一个整体一样运行。高性能、地理分布式的 AI 光纤网络基础设施克服了距离和数据加密方面的挑战。.

在为实时人工智能推理工作负载设计低延迟网络时，需要了解哪些内容？

工程师必须权衡一系列参数，以优化人工智能网络架构、性能、可扩展性和成本，其中包括：

实际工作负载下每个GPU的带宽
网络架构如何处理同步的GPU流量峰值
跳转间的微秒级延迟预算
Clos、FatTree 和 Dragonfly 等不同拓扑结构之间的性能差异
高速和不同距离下铜缆与光纤的局限性
共封装光学器件和硅光子学的成熟度
交换机部署的热效应和功耗影响

链路故障对主动模型训练的影响
超大规模环境下的操作系统行为和稳定性
光学组件公差和损耗预算
不同供应商之间的硅芯片切换权衡
GPU 利用率相对于网络阻塞
密集型人工智能网络结构中的常见故障模式
海岸线带宽密度（沿组件边缘单位长度的数据传输容量）
能量效率（pJ/bit）

如何为人工智能工作负载提供高性能连接？

大量数据的快速、同步传输需要无拥塞的人工智能网络架构、低延迟的人工智能网络架构和自主运行。.

为大规模人工智能数据管道配置高吞吐量网络依赖于一系列人工智能网络技术的进步，其中包括：

计算织物
人工智能时代的计算要求网络架构必须无损且无拥塞，否则计算速度会变慢，GPU 也会闲置——这是一种浪费且成本高昂的状态——因为所有 GPU 都必须完成当前任务才能开始下一个任务。为了满足模型训练对带宽的巨大需求，能够提供高达 1.8 Tbps 带宽的网络架构正在涌现。工程师们需要权衡超低延迟和带宽、开放标准和互操作性、成本以及基础设施熟悉度等要求。.
数据处理
智能网络接口卡 (SmartNIC) 和数据处理单元 (DPU) 的出现，使得 CPU 可以将更多计算资源用于应用程序处理，从而减轻 CPU 的复杂任务负担。这些可编程网络适配器拥有独立的处理单元，能够处理存储、安全和数据管理等多种工作负载。.
光接口
随着人工智能网络带宽需求的日益增长，传统收发器会降低数据在处理硬件间传输的速度。将光器件集成到更靠近GPU的位置可以加快数据传输速度，从而降低延迟。诸如共封装光学器件、线性可插拔光学器件和硅光子学等创新技术不仅提高了性能，还降低了功耗，而功耗正是人工智能数据中心运营商最为关注的问题。.
开关
为了支持人工智能工作负载，网络交换机必须能够以闪电般的速度在连接点之间传输海量数据，而且这种传输往往以突发性强、足以使传统网络交换机不堪重负的方式进行。采用智能交换机的人工智能网络拓扑结构，能够使流量在人工智能加速器芯片之间持续传输，并借助先进的拥塞控制和自适应路由等创新技术，处理海量信息流而不会出现拥塞或数据丢失。此外，它们还集成了智能电源管理功能，以降低能耗并提高GPU的利用率。.
液冷
GPU并非人工智能数据中心中唯一耗电发热的硬件。与空气冷却系统相比，它能够更高效地散热，, 液冷冷板同时还要管理 AI 网络架构交换机 ASIC 的过热问题。.
开源软件
供应商锁定是数据中心运营商关注的问题。面向云的开放网络软件 (SONiC) 是一款开源网络操作系统，它使企业能够在来自不同交换机供应商的各种设备上使用相同的网络软件堆栈，从而提高灵活性、可扩展性和模块化程度。.

如何大规模生产复杂的AI网络技术？

从制造角度来看，关键在于数据中心运营商必须做出选择。与拥有工程技术专长、生产能力和弹性供应链的合作伙伴大规模交付复杂、高质量的人工智能网络组件。当空前的需求遇到技术复杂性，且对性能问题零容忍时，明智的选择至关重要。.

寻找具备以下特质的合作伙伴：

蓝色线条艺术插图，描绘了三个服务器机柜，上面有各种面板、按钮和隔间，代表数据中心设备。.

已证实具备以下能力制造复杂、先进的数据中心技术超大规模数据中心、云服务提供商和托管设施运营商需要处理大量数据，以满足其计算能力和性能要求。.

对人工智能网络技术的深入了解，以及数据中心基础设施专业知识帮助运营商从带宽和延迟考虑因素到电源/冷却效率和部署时间表等多个参数出发，做出全面、明智的决策。.

技术人员全球主要制造基地具备严谨的执行力，能够满足服务水平协议和质量标准，能够处理复杂的 AI 网络组装、复杂的光纤布线、光组件集成等。.

设计和工程服务重点关注创新、产品卓越性和制造准备，以最大限度地降低随着需求增加而提高产量所带来的风险，并了解性能如何随时间变化。.

蓝色线条画插图，描绘了一台医疗监视器，屏幕上显示着心跳波形，右侧有各种按钮和控件。.

测试和验证服务有助于确保产品在整个生命周期内的性能、可靠性和耐用性。.

一个人站在大型数据中心里，手里拿着一台打开的笔记本电脑，周围是成排的服务器机架，这些机架针对人工智能数据中心的网络进行了优化，正在工作。

随着人工智能工作负载的激增和网络性能下降成为瓶颈，先进的人工智能网络能力已成为数据中心运营商的竞争优势。前所未有的数据流量正在推动人工智能网络拓扑结构的创新，以提升性能、安全性和可扩展性。.

要了解更多关于 Flex 在部署 AI 数据中心网络基础设施方面所发挥的作用，请访问 flex.com/industries/communications

常见问题解答：人工智能网络

什么是人工智能网络？

人工智能网络是指连接GPU和其他IT硬件的网络架构、系统和技术。它们的设计旨在满足人工智能工作负载对带宽、延迟、吞吐量和可靠性的需求。.

人工智能网络与传统网络有何不同？

人工智能工作负载的数据流量可达每秒太比特 (Tbps)，远远超过传统的 25 Gbps/100 Gbps 网络。为了充分利用 GPU，人工智能集群需要高带宽、低延迟和无损网络架构。.

在人工智能网络中，“向上、向外和横向扩展”意味着什么？

扩展：在严格保证信号完整性的前提下，提高机架内每个GPU的带宽。

横向扩展：使用拥塞感知型网络架构连接设施内的机架

跨数据中心扩展：利用低延迟、加密的光纤网络连接不同数据中心的GPU

人工智能数据中心中的计算架构是什么？

计算架构是一种高速、无损的网络，它使多个GPU能够像一个GPU一样运行。架构通常设计用于支持400 Gbps、800 Gbps以及新兴的1.6 Tbps至1.8 Tbps数据流。.

智能网卡和分布式处理器如何帮助人工智能工作负载？

智能网卡和分布式处理单元 (DPU) 可卸载存储、安全和数据管理任务，从而释放 CPU 内核以进行更密集的计算。.

为什么光接口对人工智能集群很重要？

共封装光学器件、硅光子学和线性可插拔光学器件将光学器件更靠近 GPU 和 ASIC，从而在规模化应用中获得更好的性能。.

什么因素使得开关“AI优化”？

支持 AI 的交换机通过先进的拥塞控制、自适应路由、深度缓冲区（在适当情况下）和智能电源管理，能够维持突发性的东西向流量。.

AI网络中何时需要液冷？

当开关和人工智能加速器密度过高，导致热负荷超出风冷系统的承受能力时，就需要采用液冷。液冷可以提高能源效率和热稳定性。.

什么是 SONiC？为什么数据中心要使用它？

SONiC 是一个开源网络操作系统，可与许多不同的交换机供应商配合使用，从而减少产品锁定并简化大规模 AI 网络操作。.

网络架构应该如何处理同步的、突发的GPU流量？

采用无损或近乎无损的设计，结合拥塞信号、自适应路由和路径多样性，防止队头阻塞，并保持 GPU 流水线的正常运转。.