联系我们

面向人工智能的网络:超越芯片的变革 

发表于
6 2026 年 3 月

人工智能网络拓扑:向上、向外和向内扩展

在计算节点之间进行人工智能数据传输时,减少网络瓶颈并非易事。人工智能网络面临三重挑战:机架内部的纵向扩展、机架间的横向扩展,以及在因空间或电力限制而需要分布式人工智能网络时,跨数据中心设施的扩展。.

蓝色线条画的地球仪,带有一个向上箭头和一个向下箭头,代表全球数据传输或通信。.

扩大规模

扩展规模的挑战主要在于如何以低延迟、高带宽的连接方式将机架中的所有GPU连接起来。机架内部的铜缆网络带宽有限,服务提供商正越来越多地将这些连接迁移到光纤,以最大限度地减少网络拥塞和数据丢失,而这些参数将随着GPU的发展而不断变化。可能需要专门的AI互连方案。.

蓝色线条艺术插图,描绘了一个齿轮,箭头分别指向上、下、左、右,表示多方向操作或系统集成。.

横向扩展

当数据中心连接数百个机架时,管理拥塞就成为一项挑战,因为多个数据流会争用相同的带宽。先进的协议使最小点架构能够利用网络交换机优化东西向的AI流量,从而在GPU之间提供成本优化、高容量、低延迟的连接。.

蓝色线条艺术插图,描绘了一个地球通过一条线连接到三个立方体形状的节点,代表一个网络或分布式系统。.

跨扩展

当大型 AI 工作负载无法在单个数据中心内处理时,跨数据中心扩展交换机可以将多个数据中心的 GPU 统一起来,使它们能够像一个整体一样运行。高性能、地理分布式的 AI 光纤网络基础设施克服了距离和数据加密方面的挑战。.

在为实时人工智能推理工作负载设计低延迟网络时,需要了解哪些内容?

  • 实际工作负载下每个GPU的带宽
  • 网络架构如何处理同步的GPU流量峰值
  • 跳转间的微秒级延迟预算
  • Clos、FatTree 和 Dragonfly 等不同拓扑结构之间的性能差异
  • 高速和不同距离下铜缆与光纤的局限性
  • 共封装光学器件和硅光子学的成熟度
  • 交换机部署的热效应和功耗影响
  • 链路故障对主动模型训练的影响
  • 超大规模环境下的操作系统行为和稳定性
  • 光学组件公差和损耗预算
  • 不同供应商之间的硅芯片切换权衡
  • GPU 利用率相对于网络阻塞
  • 密集型人工智能网络结构中的常见故障模式
  • 海岸线带宽密度(沿组件边缘单位长度的数据传输容量)
  • 能量效率(pJ/bit)

如何为人工智能工作负载提供高性能连接? 

大量数据的快速、同步传输需要无拥塞的人工智能网络架构、低延迟的人工智能网络架构和自主运行。.

为大规模人工智能数据管道配置高吞吐量网络依赖于一系列人工智能网络技术的进步,其中包括:

  • 计算织物
    人工智能时代的计算要求网络架构必须无损且无拥塞,否则计算速度会变慢,GPU 也会闲置——这是一种浪费且成本高昂的状态——因为所有 GPU 都必须完成当前任务才能开始下一个任务。为了满足模型训练对带宽的巨大需求,能够提供高达 1.8 Tbps 带宽的网络架构正在涌现。工程师们需要权衡超低延迟和带宽、开放标准和互操作性、成本以及基础设施熟悉度等要求。.
     
  • 数据处理
    智能网络接口卡 (SmartNIC) 和数据处理单元 (DPU) 的出现,使得 CPU 可以将更多计算资源用于应用程序处理,从而减轻 CPU 的复杂任务负担。这些可编程网络适配器拥有独立的处理单元,能够处理存储、安全和数据管理等多种工作负载。.
     
  • 光接口
    随着人工智能网络带宽需求的日益增长,传统收发器会降低数据在处理硬件间传输的速度。将光器件集成到更靠近GPU的位置可以加快数据传输速度,从而降低延迟。诸如共封装光学器件、线性可插拔光学器件和硅光子学等创新技术不仅提高了性能,还降低了功耗,而功耗正是人工智能数据中心运营商最为关注的问题。.
     
  • 开关
    为了支持人工智能工作负载,网络交换机必须能够以闪电般的速度在连接点之间传输海量数据,而且这种传输往往以突发性强、足以使传统网络交换机不堪重负的方式进行。采用智能交换机的人工智能网络拓扑结构,能够使流量在人工智能加速器芯片之间持续传输,并借助先进的拥塞控制和自适应路由等创新技术,处理海量信息流而不会出现拥塞或数据丢失。此外,它们还集成了智能电源管理功能,以降低能耗并提高GPU的利用率。.
     
  • 液冷
    GPU并非人工智能数据中心中唯一耗电发热的硬件。与空气冷却系统相比,它能够更高效地散热,, 液冷冷板 同时还要管理 AI 网络架构交换机 ASIC 的过热问题。.
     
  • 开源软件
    供应商锁定是数据中心运营商关注的问题。面向云的开放网络软件 (SONiC) 是一款开源网络操作系统,它使企业能够在来自不同交换机供应商的各种设备上使用相同的网络软件堆栈,从而提高灵活性、可扩展性和模块化程度。.

如何大规模生产复杂的AI网络技术?

从制造角度来看,关键在于数据中心运营商必须做出选择。 与拥有工程技术专长、生产能力和弹性供应链的合作伙伴 大规模交付复杂、高质量的人工智能网络组件。当空前的需求遇到技术复杂性,且对性能问题零容忍时,明智的选择至关重要。.

寻找具备以下特质的合作伙伴:

蓝色线条艺术插图,描绘了三个服务器机柜,上面有各种面板、按钮和隔间,代表数据中心设备。.

已证实具备以下能力 制造复杂、先进的数据中心技术 超大规模数据中心、云服务提供商和托管设施运营商需要处理大量数据,以满足其计算能力和性能要求。.

蓝色线条艺术插图,描绘了一个包含程式化大脑的微芯片,代表人工智能或机器学习。.

对人工智能网络技术的深入了解,以及 数据中心基础设施专业知识 帮助运营商从带宽和延迟考虑因素到电源/冷却效率和部署时间表等多个参数出发,做出全面、明智的决策。.

蓝色线条画,描绘了一名戴着安全帽、穿着工作服的建筑工人。.

技术人员 全球主要制造基地 具备严谨的执行力,能够满足服务水平协议和质量标准,能够处理复杂的 AI 网络组装、复杂的光纤布线、光组件集成等。.

蓝色线条艺术插图,铅笔绘制在一组虚线测量线上,箭头指示垂直和水平尺寸。.

设计和工程服务 重点关注创新、产品卓越性和制造准备,以最大限度地降低随着需求增加而提高产量所带来的风险,并了解性能如何随时间变化。.

蓝色线条画插图,描绘了一台医疗监视器,屏幕上显示着心跳波形,右侧有各种按钮和控件。.

测试和验证服务 有助于确保产品在整个生命周期内的性能、可靠性和耐用性。.

一个人站在大型数据中心里,手里拿着一台打开的笔记本电脑,周围是成排的服务器机架,这些机架针对人工智能数据中心的网络进行了优化,正在工作。

随着人工智能工作负载的激增和网络性能下降成为瓶颈,先进的人工智能网络能力已成为数据中心运营商的竞争优势。前所未有的数据流量正在推动人工智能网络拓扑结构的创新,以提升性能、安全性和可扩展性。.

常见问题解答:人工智能网络

什么是人工智能网络?

人工智能网络是指连接GPU和其他IT硬件的网络架构、系统和技术。它们的设计旨在满足人工智能工作负载对带宽、延迟、吞吐量和可靠性的需求。. 

人工智能网络与传统网络有何不同?

人工智能工作负载的数据流量可达每秒太比特 (Tbps),远远超过传统的 25 Gbps/100 Gbps 网络。为了充分利用 GPU,人工智能集群需要高带宽、低延迟和无损网络架构。. 

在人工智能网络中,“向上、向外和横向扩展”意味着什么?

扩展:在严格保证信号完整性的前提下,提高机架内每个GPU的带宽。 

横向扩展:使用拥塞感知型网络架构连接设施内的机架 

跨数据中心扩展:利用低延迟、加密的光纤网络连接不同数据中心的GPU   

人工智能数据中心中的计算架构是什么?

计算架构是一种高速、无损的网络,它使多个GPU能够像一个GPU一样运行。架构通常设计用于支持400 Gbps、800 Gbps以及新兴的1.6 Tbps至1.8 Tbps数据流。. 

智能网卡和分布式处理器如何帮助人工智能工作负载?

智能网卡和分布式处理单元 (DPU) 可卸载存储、安全和数据管理任务,从而释放 CPU 内核以进行更密集的计算。.  

为什么光接口对人工智能集群很重要?

共封装光学器件、硅光子学和线性可插拔光学器件将光学器件更靠近 GPU 和 ASIC,从而在规模化应用中获得更好的性能。.  

什么因素使得开关“AI优化”?

支持 AI 的交换机通过先进的拥塞控制、自适应路由、深度缓冲区(在适当情况下)和智能电源管理,能够维持突发性的东西向流量。.  

AI网络中何时需要液冷?

当开关和人工智能加速器密度过高,导致热负荷超出风冷系统的承受能力时,就需要采用液冷。液冷可以提高能源效率和热稳定性。. 

什么是 SONiC?为什么数据中心要使用它?

SONiC 是一个开源网络操作系统,可与许多不同的交换机供应商配合使用,从而减少产品锁定并简化大规模 AI 网络操作。. 

网络架构应该如何处理同步的、突发的GPU流量?

采用无损或近乎无损的设计,结合拥塞信号、自适应路由和路径多样性,防止队头阻塞,并保持 GPU 流水线的正常运转。.