Vernetzung für KI: Transformation jenseits des Chips

Veröffentlicht am
6. März 2026

Rechenzentrum IT-Infrastruktur

Unternehmen erkennen KI als Wettbewerbsvorteil, und die Anwendungsfälle nehmen rasant zu. Leistungsstarke GPUs haben die Fantasie und die Investitionen im Wettlauf um die immer schnellere Verarbeitung enormer Datenmengen beflügelt. Die Technologie ist sensationell, aber was ist mit der übrigen Hardware, die KI-Computing überhaupt erst ermöglicht?

Wenn die Rechenleistung das Gehirn der digitalen Welt ist, dann ist die Vernetzung das zentrale Nervensystem – und dieses durchläuft selbst einen tiefgreifenden Wandel. Willkommen im Zeitalter der leistungsstarken KI-Netzwerke.

Warum benötigt KI spezialisierte Netzwerke?

GPUs sind sehr teuer, insbesondere in den Mengen, die für große KI-Workloads benötigt werden. Hochleistungsfähige Supercomputer-Plattformen im Rack-Format mit über 70 GPUs erfordern Investitionen in Millionenhöhe. Unternehmen und Cloud-Anbieter, die massiv in fortschrittliche Chipsätze investieren, wollen keine Netzwerkengpässe, die sie ausbremsen. Was früher für Geschäftsanwendungen mit Datenübertragungsraten von 25 Gigabit pro Sekunde (Gbit/s) ausreichend war, ist bei Geschwindigkeiten von fast 1.600 Gbit/s (1,6 Terabit pro Sekunde), wie sie beim KI-Training üblich sind, völlig unzureichend. Eine KI-Netzwerkinfrastruktur mit hoher Bandbreite und geringer Latenz ist daher unerlässlich.

Liniendiagramm mit den Datenübertragungsraten für gängige LAN-Standards von 1980 bis 2025, wobei die Punkte im Laufe der Zeit allmählich zunehmen und nach 2010 sprunghaft ansteigen, um Geschwindigkeiten im Multi-Gigabit-Bereich zu erreichen.

Die Datenübertragungsraten in LANs sind im letzten Jahrzehnt exponentiell gestiegen, und für einige Standards werden im Jahr 2026 Geschwindigkeiten von bis zu 25,6 Tbit/s erwartet. Dies unterstreicht die Notwendigkeit für Rechenzentrumsbetreiber, sicherzustellen, dass sie die neuesten Technologien einsetzen, um ihre Standorte zukunftssicher zu machen.

Die KI-Netzwerktopologie: Skalierung nach oben, außen und quer

Die Reduzierung von Netzwerkengpässen beim KI-Datentransfer zwischen Rechenknoten birgt Herausforderungen. Die Vernetzung für KI ist ein dreifaches Problem: Skalierung innerhalb eines Racks, Skalierung zwischen Racks und Skalierung über Rechenzentrumseinrichtungen hinweg, wenn aufgrund von Platz- oder Energiebeschränkungen eine verteilte KI-Vernetzung erforderlich ist.

Blaue Strichzeichnung einer Weltkugel mit einem nach oben gerichteten und einem nach unten gerichteten Pfeil, die den globalen Datentransfer bzw. die globale Kommunikation symbolisieren.

Skalierung

Die größte Herausforderung bei der Skalierung besteht darin, alle GPUs in einem Rack mit latenzarmen und bandbreitenstarken Verbindungen zu verbinden. Kupferkabel-Netzwerke innerhalb eines Racks stoßen an Bandbreitengrenzen, weshalb Serviceprovider diese Verbindungen zunehmend auf Glasfaser umstellen, um Engpässe und Datenverluste zu minimieren. Die genauen Parameter werden sich mit der Weiterentwicklung der GPUs verändern. Möglicherweise sind spezielle KI-Verbindungen erforderlich.

Blaue Strichzeichnung eines Zahnrads mit Pfeilen, die nach oben, unten, links und rechts zeigen, um multidirektionale Operationen oder Systemintegration darzustellen.

Skalierung

Wenn Hunderte von Racks in einem Rechenzentrum miteinander verbunden sind, besteht die Herausforderung darin, die Überlastung zu bewältigen, da mehrere Datenströme um dieselbe Bandbreite konkurrieren. Fortschrittliche Protokolle ermöglichen es Least-Point-Fabrics, den Ost-West-KI-Datenverkehr mit Netzwerk-Switches zu optimieren und so kostenoptimierte Verbindungen mit hoher Kapazität und geringer Latenz zwischen GPUs bereitzustellen.

Skalierung über

Wenn große KI-Workloads nicht in einem einzelnen Rechenzentrum bewältigt werden können, vereinheitlichen Scale-Across-Switches die GPUs mehrerer Standorte, sodass diese wie ein einziges System funktionieren. Eine leistungsstarke, geografisch verteilte KI-Glasfasernetzwerkinfrastruktur überwindet Herausforderungen hinsichtlich Entfernung und Datenverschlüsselung.

Was muss man beim Entwurf von Netzwerken mit geringer Latenz für KI-Inferenz-Workloads in Echtzeit beachten?

Ingenieure müssen eine Reihe von Parametern gegeneinander abwägen, um die Netzwerkarchitektur, Leistung, Skalierbarkeit und Kosten von KI-Systemen zu optimieren, darunter:

Bandbreite pro GPU bei realen Arbeitslasten
Wie Fabrics synchronisierte GPU-Traffic-Spitzen bewältigen
Latenzbudgets im Mikrosekundenbereich von Hop zu Hop
Leistungsunterschiede zwischen Topologien wie Clos, FatTree und Dragonfly
Grenzen von Kupfer im Vergleich zu Glasfaser bei hohen Geschwindigkeiten und unterschiedlichen Entfernungen
Reifegrad von gemeinsam verpackten Optiken und Siliziumphotonik
Thermische und energietechnische Auswirkungen von Switch-Implementierungen

Auswirkungen von Verbindungsfehlern während des aktiven Modelltrainings
Betriebssystemverhalten und Stabilität im Hyperscale-Bereich
Toleranzen und Verlustbudgets für optische Baugruppen
Kompromisse bei Schaltsilizium-Anbietern
GPU-Auslastung im Verhältnis zu Netzwerkausfällen
Häufige Fehlerarten in dichten KI-Netzwerken
Bandbreitendichte der Küstenlinie (Datenübertragungskapazität pro Längeneinheit entlang einer Komponentenkante)
Energieeffizienz (pJ/Bit)

Wie lässt sich eine leistungsstarke Konnektivität für KI-Workloads realisieren?

Die schnelle, synchronisierte Übertragung großer Datenmengen erfordert staufreie KI-Netzwerkstrukturen, KI-Netzwerkarchitekturen mit geringer Latenz und autonome Abläufe.

Die Konfiguration von Hochdurchsatznetzwerken für groß angelegte KI-Datenpipelines basiert auf einer Reihe von Fortschritten im Bereich der KI-Netzwerke, darunter:

Compute Fabric
Die Rechenleistung im Zeitalter der KI erfordert verlustfreie und staufreie Netzwerkstrukturen, da sonst die Rechenleistung sinkt und GPUs ungenutzt bleiben – ein ineffizienter und teurer Zustand –, weil alle GPUs ihre aktuelle Aufgabe abschließen müssen, bevor die nächste beginnen kann. Netzwerke mit Bandbreiten von bis zu 1,8 Tbit/s entstehen, um den hohen Bandbreitenbedarf des Modelltrainings zu decken. Ingenieure wägen dabei Anforderungen an extrem niedrige Latenz und Bandbreite, offene Standards und Interoperabilität sowie Kosten und Vertrautheit mit der Infrastruktur ab.
Datenverarbeitung
Intelligente Netzwerkschnittstellenkarten (SmartNICs) und Datenverarbeitungseinheiten (DPUs) haben sich als Möglichkeit etabliert, komplexe Aufgaben von der CPU auszulagern, sodass diese mehr Rechenleistung für die Anwendungsverarbeitung bereitstellen kann. Diese programmierbaren Netzwerkadapter verfügen über eigene Verarbeitungseinheiten, die es ihnen ermöglichen, unter anderem Speicher-, Sicherheits- und Datenverwaltungsaufgaben zu übernehmen.
Optische Schnittstellen
Mit steigendem Bandbreitenbedarf in KI-Netzwerken können herkömmliche Transceiver die Datenübertragungsgeschwindigkeit zur und von der Verarbeitungshardware verlangsamen. Die Integration optischer Komponenten näher an die GPUs ermöglicht eine schnellere Datenübertragung und reduziert somit die Latenz. Innovationen wie Co-Packaged Optics, Linear Pluggable Optics und Siliziumphotonik steigern nicht nur die Leistung, sondern senken auch den Stromverbrauch – ein zentrales Anliegen von Betreibern von KI-Rechenzentren.
Schalter
Um KI-Workloads zu unterstützen, müssen Netzwerk-Switches immense Datenmengen blitzschnell zwischen den Verbindungspunkten übertragen können, oft in intensiven Datenspitzen, die herkömmliche Netzwerk-Switches überlasten können. KI-Netzwerktopologien mit intelligenten Switches, die für den kontinuierlichen Datenfluss zwischen KI-Beschleunigerchips entwickelt wurden, können dank Innovationen wie fortschrittlicher Staukontrolle und adaptivem Routing massive Informationsströme ohne Engpässe oder Datenverluste bewältigen. Sie verfügen außerdem über intelligentes Energiemanagement, um den Energieverbrauch zu senken und die GPU-Monetarisierung zu verbessern.
Flüssigkeitskühlung
GPUs sind nicht die einzigen energiehungrigen und wärmeerzeugenden Hardwarekomponenten in KI-Rechenzentren. Dank ihrer Fähigkeit, Wärme energieeffizienter als Luftkühlsysteme abzuleiten, Flüssigkeitskühlungs-Kaltplatten Auch die thermischen Überschüsse von ASICs für KI-Netzwerk-Fabric-Switches müssen in den Griff bekommen werden.
Open-Source-Software
Die Abhängigkeit von einem einzelnen Anbieter ist ein Problem für Rechenzentrumsbetreiber. Software for Open Networking in the Cloud (SONiC) ist ein Open-Source-Netzwerkbetriebssystem, das es Unternehmen ermöglicht, denselben Netzwerk-Software-Stack auf einer Vielzahl von Geräten verschiedener Switch-Hersteller zu verwenden und so mehr Flexibilität, Skalierbarkeit und Modularität zu erreichen.

Wie lassen sich hochentwickelte KI-Netzwerktechnologien in großem Maßstab herstellen?

Aus Sicht der Fertigung lässt sich festhalten, dass Rechenzentrumsbetreiber wählen müssen Partner mit technischem Know-how, Produktionskapazitäten und widerstandsfähigen Lieferketten Um anspruchsvolle, hochwertige KI-Netzwerkkomponenten in großem Umfang bereitzustellen. Angesichts der beispiellosen Nachfrage, der technologischen Komplexität und der Nulltoleranz gegenüber Leistungsproblemen ist eine kluge Auswahl unerlässlich.

Suchen Sie einen Partner mit folgenden Eigenschaften:

Blaue Strichzeichnung von drei Serverschränken mit verschiedenen Bedienfeldern, Knöpfen und Fächern, die die Ausrüstung eines Rechenzentrums darstellen.

Nachgewiesene Fähigkeit zu Herstellung komplexer, fortschrittlicher Rechenzentrumstechnologien bei den hohen Datenmengen, die Hyperscaler, Cloud-Anbieter und Betreiber von Colocation-Einrichtungen benötigen, um ihre Anforderungen an Rechenkapazität und Leistung zu erfüllen.

Blaue Strichzeichnung eines Mikrochips mit einem stilisierten Gehirn zur Darstellung künstlicher Intelligenz oder maschinellen Lernens.

Tiefgreifende Kenntnisse von KI-Netzwerktechnologien gepaart mit Expertise im Bereich Rechenzentrumsinfrastruktur um Betreibern zu helfen, ganzheitliche und fundierte Entscheidungen unter Berücksichtigung verschiedener Parameter zu treffen, von Bandbreiten- und Latenzüberlegungen bis hin zu Energie-/Kühlungseffizienz und Bereitstellungszeitplänen.

Blaue Strichzeichnung eines Bauarbeiters mit Schutzhelm und Overall.

Techniker bei wichtige Produktionsstandorte weltweit mit disziplinierter Ausführung zur Einhaltung von SLAs und Qualitätsstandards, die in der Lage sind, komplexe KI-Netzwerkmontagen, komplizierte Glasfaserverlegung, die Integration optischer Komponenten und mehr zu bewältigen.

Blaue Strichzeichnung einer Bleistiftzeichnung über gestrichelten Messlinien mit Pfeilen, die die vertikalen und horizontalen Abmessungen angeben.

Design- und Ingenieurdienstleistungen mit Fokus auf Innovation, Produktqualität und Produktionsbereitschaft, um Risiken bei Produktionssteigerungen aufgrund steigender Nachfrage zu minimieren und zu verstehen, wie sich die Leistung im Laufe der Zeit verändern kann.

Blaue Strichzeichnung eines medizinischen Monitors, der eine Herzschlagkurve anzeigt und auf der rechten Seite verschiedene Knöpfe und Bedienelemente aufweist.

Test- und Validierungsdienste um die Leistungsfähigkeit, Zuverlässigkeit und Langlebigkeit des Produkts während des gesamten Produktlebenszyklus zu gewährleisten.

Eine Person steht in einem großen Rechenzentrum, hält einen geöffneten Laptop in der Hand und arbeitet, umgeben von Reihen von Serverracks, die für die Vernetzung von KI-Rechenzentren optimiert sind.

Fortschrittliche KI-Netzwerkfunktionen sind für Rechenzentrumsbetreiber ein entscheidender Wettbewerbsvorteil, da KI-Workloads immer häufiger eingesetzt werden und unzureichende Netzwerke zum Engpass werden. Beispielloses Datenaufkommen treibt Innovationen in den gesamten KI-Netzwerktopologien voran, um Leistung, Sicherheit und Skalierbarkeit zu verbessern.

Um mehr über die Rolle von Flex beim Aufbau der Netzwerkinfrastruktur für KI-Rechenzentren zu erfahren, besuchen Sie flex.com/industries/communications

Häufig gestellte Fragen: Vernetzung für KI

Was ist Vernetzung für KI?

Die Vernetzung für KI bezieht sich auf die Netzwerkarchitekturen, Systeme und Technologien, die GPUs und andere IT-Hardware verbinden. Sie sind darauf ausgelegt, die Anforderungen von KI-Workloads hinsichtlich Bandbreite, Latenz, Durchsatz und Zuverlässigkeit zu erfüllen.

Wie unterscheidet sich die Vernetzung für KI von der traditionellen Vernetzung?

KI-Workloads können Datenströme im Terabit-Bereich (Tbps) erzeugen und damit die Kapazität herkömmlicher 25-Gbit/s-/100-Gbit/s-Netzwerke deutlich übertreffen. Um die GPUs optimal auszulasten, benötigen KI-Cluster hohe Bandbreite, geringe Latenz und verlustfreie Netzwerkarchitekturen.

Was bedeutet “Skalierung nach oben, außen und quer” im Kontext von KI-Netzwerken?

Skalierung: Erhöhung der Bandbreite pro GPU innerhalb des Racks bei strikter Signalintegrität

Skalierung nach außen: Verbinden Sie Racks innerhalb einer Anlage mithilfe von kapazitätsoptimierten Fabrics.

Skalierung über verschiedene Bereiche hinweg: GPUs in Rechenzentren mithilfe latenzarmer, verschlüsselter Glasfaserverbindungen vereinen.

Was ist eine Compute Fabric in KI-Rechenzentren?

Ein Compute Fabric ist ein Hochgeschwindigkeitsnetzwerk mit verlustfreier Übertragung, das es mehreren GPUs ermöglicht, wie eine einzige GPU zu arbeiten. Solche Fabrics sind üblicherweise für Datenraten von 400 Gbit/s, 800 Gbit/s und den aufkommenden Datenraten von 1,6 Tbit/s bis 1,8 Tbit/s ausgelegt.

Wie unterstützen SmartNICs und DPUs KI-Workloads?

SmartNICs und DPUs entlasten die Speicher-, Sicherheits- und Datenverwaltungsaufgaben und geben so CPU-Kerne für rechenintensivere Aufgaben frei.

Warum sind optische Schnittstellen für KI-Cluster wichtig?

Durch die Integration von Optiken in Gehäuse, Siliziumphotonik und linearen steckbaren Optiken rücken optische Bauteile näher an GPUs und ASICs heran, was zu einer besseren Leistung im großen Maßstab führt.

Was macht einen Schalter “KI-optimiert”?

KI-fähige Switches bewältigen sprunghafte Ost-West-Verkehrsspitzen dank fortschrittlicher Staukontrolle, adaptivem Routing, großen Puffern (wo angebracht) und intelligentem Energiemanagement.

Wann ist Flüssigkeitskühlung in KI-Netzwerken erforderlich?

Flüssigkeitskühlung kommt zum Einsatz, wenn die Dichte von Schaltern und KI-Beschleunigern die Wärmelasten über die Kapazität von Luftkühlsystemen hinaus erhöht. Sie verbessert die Energieeffizienz und die thermische Stabilität.

Was ist SONiC und warum wird es in Rechenzentren eingesetzt?

SONiC ist ein Open-Source-Netzwerkbetriebssystem, das mit vielen verschiedenen Switch-Herstellern zusammenarbeitet, die Produktabhängigkeit verringert und den Betrieb von KI-Netzwerken im großen Maßstab vereinfacht.

Wie sollten Netzwerkarchitekturen mit synchronisiertem, stoßartigem GPU-Datenverkehr umgehen?

Um Blockierungen am Anfang der Pipeline zu verhindern und die GPU-Pipelines auszulasten, sollten verlustfreie oder nahezu verlustfreie Designs mit Stauerkennung, adaptivem Routing und Pfaddiversität eingesetzt werden.

Vernetzung für KI: Transformation jenseits des Chips

Warum benötigt KI spezialisierte Netzwerke?

Die KI-Netzwerktopologie: Skalierung nach oben, außen und quer

Skalierung

Skalierung

Skalierung über

Was muss man beim Entwurf von Netzwerken mit geringer Latenz für KI-Inferenz-Workloads in Echtzeit beachten?

Ingenieure müssen eine Reihe von Parametern gegeneinander abwägen, um die Netzwerkarchitektur, Leistung, Skalierbarkeit und Kosten von KI-Systemen zu optimieren, darunter:

Wie lässt sich eine leistungsstarke Konnektivität für KI-Workloads realisieren?

Die Konfiguration von Hochdurchsatznetzwerken für groß angelegte KI-Datenpipelines basiert auf einer Reihe von Fortschritten im Bereich der KI-Netzwerke, darunter:

Wie lassen sich hochentwickelte KI-Netzwerktechnologien in großem Maßstab herstellen?

Suchen Sie einen Partner mit folgenden Eigenschaften:

Häufig gestellte Fragen: Vernetzung für KI

Stay connected