Kontaktiere uns

Vernetzung für KI: Transformation jenseits des Chips 

Veröffentlicht am
6. März 2026

Die KI-Netzwerktopologie: Skalierung nach oben, außen und quer

Die Reduzierung von Netzwerkengpässen beim KI-Datentransfer zwischen Rechenknoten birgt Herausforderungen. Die Vernetzung für KI ist ein dreifaches Problem: Skalierung innerhalb eines Racks, Skalierung zwischen Racks und Skalierung über Rechenzentrumseinrichtungen hinweg, wenn aufgrund von Platz- oder Energiebeschränkungen eine verteilte KI-Vernetzung erforderlich ist.

Blaue Strichzeichnung einer Weltkugel mit einem nach oben gerichteten und einem nach unten gerichteten Pfeil, die den globalen Datentransfer bzw. die globale Kommunikation symbolisieren.

Skalierung

Die größte Herausforderung bei der Skalierung besteht darin, alle GPUs in einem Rack mit latenzarmen und bandbreitenstarken Verbindungen zu verbinden. Kupferkabel-Netzwerke innerhalb eines Racks stoßen an Bandbreitengrenzen, weshalb Serviceprovider diese Verbindungen zunehmend auf Glasfaser umstellen, um Engpässe und Datenverluste zu minimieren. Die genauen Parameter werden sich mit der Weiterentwicklung der GPUs verändern. Möglicherweise sind spezielle KI-Verbindungen erforderlich.

Blaue Strichzeichnung eines Zahnrads mit Pfeilen, die nach oben, unten, links und rechts zeigen, um multidirektionale Operationen oder Systemintegration darzustellen.

Skalierung

Wenn Hunderte von Racks in einem Rechenzentrum miteinander verbunden sind, besteht die Herausforderung darin, die Überlastung zu bewältigen, da mehrere Datenströme um dieselbe Bandbreite konkurrieren. Fortschrittliche Protokolle ermöglichen es Least-Point-Fabrics, den Ost-West-KI-Datenverkehr mit Netzwerk-Switches zu optimieren und so kostenoptimierte Verbindungen mit hoher Kapazität und geringer Latenz zwischen GPUs bereitzustellen.

Blaue Strichzeichnung einer Weltkugel, die durch eine Linie mit drei würfelförmigen Knoten verbunden ist, welche ein Netzwerk oder verteiltes System darstellen.

Skalierung über

Wenn große KI-Workloads nicht in einem einzelnen Rechenzentrum bewältigt werden können, vereinheitlichen Scale-Across-Switches die GPUs mehrerer Standorte, sodass diese wie ein einziges System funktionieren. Eine leistungsstarke, geografisch verteilte KI-Glasfasernetzwerkinfrastruktur überwindet Herausforderungen hinsichtlich Entfernung und Datenverschlüsselung.

Was muss man beim Entwurf von Netzwerken mit geringer Latenz für KI-Inferenz-Workloads in Echtzeit beachten?

  • Bandbreite pro GPU bei realen Arbeitslasten
  • Wie Fabrics synchronisierte GPU-Traffic-Spitzen bewältigen
  • Latenzbudgets im Mikrosekundenbereich von Hop zu Hop
  • Leistungsunterschiede zwischen Topologien wie Clos, FatTree und Dragonfly
  • Grenzen von Kupfer im Vergleich zu Glasfaser bei hohen Geschwindigkeiten und unterschiedlichen Entfernungen
  • Reifegrad von gemeinsam verpackten Optiken und Siliziumphotonik
  • Thermische und energietechnische Auswirkungen von Switch-Implementierungen
  • Auswirkungen von Verbindungsfehlern während des aktiven Modelltrainings
  • Betriebssystemverhalten und Stabilität im Hyperscale-Bereich
  • Toleranzen und Verlustbudgets für optische Baugruppen
  • Kompromisse bei Schaltsilizium-Anbietern
  • GPU-Auslastung im Verhältnis zu Netzwerkausfällen
  • Häufige Fehlerarten in dichten KI-Netzwerken
  • Bandbreitendichte der Küstenlinie (Datenübertragungskapazität pro Längeneinheit entlang einer Komponentenkante)
  • Energieeffizienz (pJ/Bit)

Wie lässt sich eine leistungsstarke Konnektivität für KI-Workloads realisieren? 

Die schnelle, synchronisierte Übertragung großer Datenmengen erfordert staufreie KI-Netzwerkstrukturen, KI-Netzwerkarchitekturen mit geringer Latenz und autonome Abläufe.

Die Konfiguration von Hochdurchsatznetzwerken für groß angelegte KI-Datenpipelines basiert auf einer Reihe von Fortschritten im Bereich der KI-Netzwerke, darunter:

  • Compute Fabric
    Die Rechenleistung im Zeitalter der KI erfordert verlustfreie und staufreie Netzwerkstrukturen, da sonst die Rechenleistung sinkt und GPUs ungenutzt bleiben – ein ineffizienter und teurer Zustand –, weil alle GPUs ihre aktuelle Aufgabe abschließen müssen, bevor die nächste beginnen kann. Netzwerke mit Bandbreiten von bis zu 1,8 Tbit/s entstehen, um den hohen Bandbreitenbedarf des Modelltrainings zu decken. Ingenieure wägen dabei Anforderungen an extrem niedrige Latenz und Bandbreite, offene Standards und Interoperabilität sowie Kosten und Vertrautheit mit der Infrastruktur ab.
     
  • Datenverarbeitung
    Intelligente Netzwerkschnittstellenkarten (SmartNICs) und Datenverarbeitungseinheiten (DPUs) haben sich als Möglichkeit etabliert, komplexe Aufgaben von der CPU auszulagern, sodass diese mehr Rechenleistung für die Anwendungsverarbeitung bereitstellen kann. Diese programmierbaren Netzwerkadapter verfügen über eigene Verarbeitungseinheiten, die es ihnen ermöglichen, unter anderem Speicher-, Sicherheits- und Datenverwaltungsaufgaben zu übernehmen.
     
  • Optische Schnittstellen
    Mit steigendem Bandbreitenbedarf in KI-Netzwerken können herkömmliche Transceiver die Datenübertragungsgeschwindigkeit zur und von der Verarbeitungshardware verlangsamen. Die Integration optischer Komponenten näher an die GPUs ermöglicht eine schnellere Datenübertragung und reduziert somit die Latenz. Innovationen wie Co-Packaged Optics, Linear Pluggable Optics und Siliziumphotonik steigern nicht nur die Leistung, sondern senken auch den Stromverbrauch – ein zentrales Anliegen von Betreibern von KI-Rechenzentren.
     
  • Schalter
    Um KI-Workloads zu unterstützen, müssen Netzwerk-Switches immense Datenmengen blitzschnell zwischen den Verbindungspunkten übertragen können, oft in intensiven Datenspitzen, die herkömmliche Netzwerk-Switches überlasten können. KI-Netzwerktopologien mit intelligenten Switches, die für den kontinuierlichen Datenfluss zwischen KI-Beschleunigerchips entwickelt wurden, können dank Innovationen wie fortschrittlicher Staukontrolle und adaptivem Routing massive Informationsströme ohne Engpässe oder Datenverluste bewältigen. Sie verfügen außerdem über intelligentes Energiemanagement, um den Energieverbrauch zu senken und die GPU-Monetarisierung zu verbessern.
     
  • Flüssigkeitskühlung
    GPUs sind nicht die einzigen energiehungrigen und wärmeerzeugenden Hardwarekomponenten in KI-Rechenzentren. Dank ihrer Fähigkeit, Wärme energieeffizienter als Luftkühlsysteme abzuleiten, Flüssigkeitskühlungs-Kaltplatten Auch die thermischen Überschüsse von ASICs für KI-Netzwerk-Fabric-Switches müssen in den Griff bekommen werden.
     
  • Open-Source-Software
    Die Abhängigkeit von einem einzelnen Anbieter ist ein Problem für Rechenzentrumsbetreiber. Software for Open Networking in the Cloud (SONiC) ist ein Open-Source-Netzwerkbetriebssystem, das es Unternehmen ermöglicht, denselben Netzwerk-Software-Stack auf einer Vielzahl von Geräten verschiedener Switch-Hersteller zu verwenden und so mehr Flexibilität, Skalierbarkeit und Modularität zu erreichen.

Wie lassen sich hochentwickelte KI-Netzwerktechnologien in großem Maßstab herstellen?

Aus Sicht der Fertigung lässt sich festhalten, dass Rechenzentrumsbetreiber wählen müssen Partner mit technischem Know-how, Produktionskapazitäten und widerstandsfähigen Lieferketten Um anspruchsvolle, hochwertige KI-Netzwerkkomponenten in großem Umfang bereitzustellen. Angesichts der beispiellosen Nachfrage, der technologischen Komplexität und der Nulltoleranz gegenüber Leistungsproblemen ist eine kluge Auswahl unerlässlich.

Suchen Sie einen Partner mit folgenden Eigenschaften:

Blaue Strichzeichnung von drei Serverschränken mit verschiedenen Bedienfeldern, Knöpfen und Fächern, die die Ausrüstung eines Rechenzentrums darstellen.

Nachgewiesene Fähigkeit zu Herstellung komplexer, fortschrittlicher Rechenzentrumstechnologien bei den hohen Datenmengen, die Hyperscaler, Cloud-Anbieter und Betreiber von Colocation-Einrichtungen benötigen, um ihre Anforderungen an Rechenkapazität und Leistung zu erfüllen.

Blaue Strichzeichnung eines Mikrochips mit einem stilisierten Gehirn zur Darstellung künstlicher Intelligenz oder maschinellen Lernens.

Tiefgreifende Kenntnisse von KI-Netzwerktechnologien gepaart mit Expertise im Bereich Rechenzentrumsinfrastruktur um Betreibern zu helfen, ganzheitliche und fundierte Entscheidungen unter Berücksichtigung verschiedener Parameter zu treffen, von Bandbreiten- und Latenzüberlegungen bis hin zu Energie-/Kühlungseffizienz und Bereitstellungszeitplänen.

Blaue Strichzeichnung eines Bauarbeiters mit Schutzhelm und Overall.

Techniker bei wichtige Produktionsstandorte weltweit mit disziplinierter Ausführung zur Einhaltung von SLAs und Qualitätsstandards, die in der Lage sind, komplexe KI-Netzwerkmontagen, komplizierte Glasfaserverlegung, die Integration optischer Komponenten und mehr zu bewältigen.

Blaue Strichzeichnung einer Bleistiftzeichnung über gestrichelten Messlinien mit Pfeilen, die die vertikalen und horizontalen Abmessungen angeben.

Design- und Ingenieurdienstleistungen mit Fokus auf Innovation, Produktqualität und Produktionsbereitschaft, um Risiken bei Produktionssteigerungen aufgrund steigender Nachfrage zu minimieren und zu verstehen, wie sich die Leistung im Laufe der Zeit verändern kann.

Blaue Strichzeichnung eines medizinischen Monitors, der eine Herzschlagkurve anzeigt und auf der rechten Seite verschiedene Knöpfe und Bedienelemente aufweist.

Test- und Validierungsdienste um die Leistungsfähigkeit, Zuverlässigkeit und Langlebigkeit des Produkts während des gesamten Produktlebenszyklus zu gewährleisten.

Eine Person steht in einem großen Rechenzentrum, hält einen geöffneten Laptop in der Hand und arbeitet, umgeben von Reihen von Serverracks, die für die Vernetzung von KI-Rechenzentren optimiert sind.

Fortschrittliche KI-Netzwerkfunktionen sind für Rechenzentrumsbetreiber ein entscheidender Wettbewerbsvorteil, da KI-Workloads immer häufiger eingesetzt werden und unzureichende Netzwerke zum Engpass werden. Beispielloses Datenaufkommen treibt Innovationen in den gesamten KI-Netzwerktopologien voran, um Leistung, Sicherheit und Skalierbarkeit zu verbessern.

Häufig gestellte Fragen: Vernetzung für KI

Was ist Vernetzung für KI?

Die Vernetzung für KI bezieht sich auf die Netzwerkarchitekturen, Systeme und Technologien, die GPUs und andere IT-Hardware verbinden. Sie sind darauf ausgelegt, die Anforderungen von KI-Workloads hinsichtlich Bandbreite, Latenz, Durchsatz und Zuverlässigkeit zu erfüllen. 

Wie unterscheidet sich die Vernetzung für KI von der traditionellen Vernetzung?

KI-Workloads können Datenströme im Terabit-Bereich (Tbps) erzeugen und damit die Kapazität herkömmlicher 25-Gbit/s-/100-Gbit/s-Netzwerke deutlich übertreffen. Um die GPUs optimal auszulasten, benötigen KI-Cluster hohe Bandbreite, geringe Latenz und verlustfreie Netzwerkarchitekturen. 

Was bedeutet “Skalierung nach oben, außen und quer” im Kontext von KI-Netzwerken?

Skalierung: Erhöhung der Bandbreite pro GPU innerhalb des Racks bei strikter Signalintegrität 

Skalierung nach außen: Verbinden Sie Racks innerhalb einer Anlage mithilfe von kapazitätsoptimierten Fabrics. 

Skalierung über verschiedene Bereiche hinweg: GPUs in Rechenzentren mithilfe latenzarmer, verschlüsselter Glasfaserverbindungen vereinen.   

Was ist eine Compute Fabric in KI-Rechenzentren?

Ein Compute Fabric ist ein Hochgeschwindigkeitsnetzwerk mit verlustfreier Übertragung, das es mehreren GPUs ermöglicht, wie eine einzige GPU zu arbeiten. Solche Fabrics sind üblicherweise für Datenraten von 400 Gbit/s, 800 Gbit/s und den aufkommenden Datenraten von 1,6 Tbit/s bis 1,8 Tbit/s ausgelegt. 

Wie unterstützen SmartNICs und DPUs KI-Workloads?

SmartNICs und DPUs entlasten die Speicher-, Sicherheits- und Datenverwaltungsaufgaben und geben so CPU-Kerne für rechenintensivere Aufgaben frei.  

Warum sind optische Schnittstellen für KI-Cluster wichtig?

Durch die Integration von Optiken in Gehäuse, Siliziumphotonik und linearen steckbaren Optiken rücken optische Bauteile näher an GPUs und ASICs heran, was zu einer besseren Leistung im großen Maßstab führt.  

Was macht einen Schalter “KI-optimiert”?

KI-fähige Switches bewältigen sprunghafte Ost-West-Verkehrsspitzen dank fortschrittlicher Staukontrolle, adaptivem Routing, großen Puffern (wo angebracht) und intelligentem Energiemanagement.  

Wann ist Flüssigkeitskühlung in KI-Netzwerken erforderlich?

Flüssigkeitskühlung kommt zum Einsatz, wenn die Dichte von Schaltern und KI-Beschleunigern die Wärmelasten über die Kapazität von Luftkühlsystemen hinaus erhöht. Sie verbessert die Energieeffizienz und die thermische Stabilität. 

Was ist SONiC und warum wird es in Rechenzentren eingesetzt?

SONiC ist ein Open-Source-Netzwerkbetriebssystem, das mit vielen verschiedenen Switch-Herstellern zusammenarbeitet, die Produktabhängigkeit verringert und den Betrieb von KI-Netzwerken im großen Maßstab vereinfacht. 

Wie sollten Netzwerkarchitekturen mit synchronisiertem, stoßartigem GPU-Datenverkehr umgehen?

Um Blockierungen am Anfang der Pipeline zu verhindern und die GPU-Pipelines auszulasten, sollten verlustfreie oder nahezu verlustfreie Designs mit Stauerkennung, adaptivem Routing und Pfaddiversität eingesetzt werden.