Die versteckten Risiken, die den rasanten Ausbau von KI-Rechenzentren gefährden

Das führt uns zu folgendem Rechenzentrumsinfrastruktur selbst. Auf der Skalenseite der ‘Und’-Gleichung wirken drei Achsen gleichzeitig, die alle mit komplexen, miteinander verbundenen technischen Problemen verbunden sind:

Die vielschichtigen Herausforderungen beim Ausbau von Rechenzentren

Skalierung innerhalb des Racks — Wie kann man Strom effizient liefern und Wärme effektiv abführen, wenn die Leistungsdichte drastisch gestiegen ist, von 10–20 kW vor einigen Jahren auf über 1 Megawatt Racks, die in naher Zukunft zu erwarten sind?
Skalierung zwischen Racks — Wie entwirft man kohärente Rechencluster mit geringer Latenz in großem Umfang, wenn es um die Architektur der Leistungsumwandlung und das Design der Stromschienen geht?, Hochleistungsnetzwerke, und die Kühlkreisläufe müssen alle um die Rechentopologie herum neu gestaltet werden?
Skalierung über verschiedene Einrichtungen hinweg — Wie lässt sich Infrastruktur über Dutzende oder Hunderte von Standorten weltweit mit einer Entwicklungsgeschwindigkeit replizieren, die die Entwicklungszeiten von Jahren auf Monate verkürzt?

Auf der Komplexitätsseite der Gleichung schreitet die Skalierung in alle Richtungen rasant voran, während gleichzeitig Rechenleistung pro Rack, Energieverbrauch am Standort, Anzahl individueller Komponenten und Artikelnummern in der Lieferkette exponentiell zunehmen. Genau darin liegt die Kernherausforderung: Es ist nicht eine einzelne Schwierigkeit, sondern ein Zusammenspiel vieler komplexer Faktoren, die alle gleichzeitig und miteinander verbunden sind.

Diese Blogreihe beleuchtet die versteckten Risiken, die im Wettlauf um die Skalierung von KI-Rechenzentren unter dem Offensichtlichen lauern:

sich ändernden Topologien — Ingenieure konzentrieren sich verstärkt auf die Beschaffung, Infrastruktur und den Einsatz von Stromversorgungssystemen der nächsten Generation für Rechenzentren.
Marktchaos — Alle expandieren aggressiv, aber nicht auf die gleiche Weise oder im gleichen Tempo.
Nicht miteinander verbundene Standards — Sicherheits- und Technologiestandards überschneiden sich, weisen Redundanzen auf oder können sich nicht so schnell an den Wandel anpassen.

Veränderte Topologien: Ein schneller und grundlegender Wandel

Das erste versteckte Risiko liegt in der topologischen Veränderung. Die physische Architektur eines Rechenzentrums wird grundlegend neu gestaltet, nicht schrittweise weiterentwickelt. Und diese Neugestaltung vollzieht sich schneller als die Designzyklen der meisten Unternehmen. Die Topologie verändert sich am schnellsten in drei Dimensionen: Stromversorgung, Kühlung und Anlagenlayout.

Energiearchitektur

Die Branche vollzieht den Übergang von 48-V-Rack-Stromversorgung zu 400-V- und 800-V-Gleichstromverteilung. Dies ist keine Frage der Präferenz, sondern physikalisch bedingt. Höhere Spannungen reduzieren den Strombedarf für die Stromversorgung des Racks (Leistung = Spannung x Stromstärke), was kleinere Kupferleiter und damit deutlich geringere Widerstandsverluste ermöglicht. Zudem kann die Stromwandlung aus dem IT-Rack in externe Stromversorgungseinheiten oder Sidecars verlagert werden. Durch diese Verlagerung steht der gesamte Platz im Rack für die Rechenleistung zur Verfügung. Bei Leistungsdichten von fast einem Megawatt pro Rack ist diese Architektur unerlässlich.

Der Übergang zu höheren Spannungen treibt auch eine Neugestaltung der Architektur für die vertikale Stromversorgung Um die Verluste im Stromversorgungsnetz (PDN) zu minimieren, kann durch die Verlagerung der Stromwandlung näher an die GPU anstatt durch lange Abwärtstransformationswege der Energieverbrauch reduziert werden, da diese Verluste in der Nähe der Last (den Rechenchips) konzentriert sind.

Bei Flex liefern wir heute 400-VDC-Systeme aus und werden demnächst 800-VDC-Systeme einsetzen. Eine breite Akzeptanz wird bis 2030 erwartet.

Kühlarchitektur

Herkömmliche luftbasierte Kühlsysteme sind bis zu einer Leistung von etwa 50 kW pro Rack effektiv. Das liegt weit unter dem Stromverbrauch von KI-Workloads. NVIDIA GB200 NVL72 ist für ca. 120 kW pro Rack ausgelegt. Roadmaps im gesamten Ökosystem deuten darauf hin, dass Plattformen der nächsten Generation 200 kW pro Rack überschreiten werden. Bei diesen Leistungsdichten lässt sich die entstehende Wärme nicht effizient mit Luft abführen. Daher ist Flüssigkeitskühlung, die thermodynamisch deutlich effizienter als Luftkühlung ist, für jede KI-Infrastrukturimplementierung unerlässlich.

Es gibt mehrere technische Ansätze für Flüssigkeitskühlung, Sie sind nicht gleichwertig. Jede Technologie hat unterschiedliche Auswirkungen auf den Betrieb. Direkt auf dem Chip angebrachte Kühlplatten sind beispielsweise am effizientesten für Geräte mit hoher thermischer Verlustleistung (TDP). Wir liefern Kühlplatten, die GPUs und Beschleuniger mit einer TDP von über 3.000 W und einer Wärmelast von 500 W/cm² bewältigen können. Die mikrokonvektive Kühlplattentechnologie, die mit 800–900 lokalisierten Flüssigkeitsstrahlen arbeitet, die gezielt Hotspots auf Chipebene kühlen, ermöglicht höhere Kühlmitteltemperaturen – mit einem Einlass von 42 °C oder mehr – wodurch der Bedarf an Kühlern reduziert oder sogar eliminiert und der Wasserverbrauch drastisch gesenkt wird.

Das Open Compute Project (OCP) und das gesamte Ökosystem haben sich auf einen Zielwert von ca. 1,5 l/min/kW für flüssigkeitsgekühlte Racks geeinigt, gegenüber den in früheren Generationen üblichen Werten von etwa 1,0 l/min/kW. Rack-basierte CDUs sind heute für 300 kW mit Durchflussmengen von bis zu 400 l/min ausgelegt. Auf Reihenebene erreichen Multi-Rack-CDU-Systeme bereits den Megawattbereich und benötigen mehrere tausend Liter Kühlmittel pro Minute. Dies sind die technischen Parameter, die die heutige CDU-Konstruktion bestimmen.

Physikalische Topologie

Die Umstellung auf höhere Rackdichten verändert auch die physische Anordnung der Rechenzentren. Da sich Rackhöhe, Gewicht und Platzbedarf je nach Einsatzszenario unterscheiden, müssen bauliche Aspekte wie Bodenbelastung, Netzwerkwege und Deckenhöhen neu bewertet werden. Gleichzeitig wird die physische Organisation des Rechenzentrums flexibler, und die Layouts werden an höhere Dichtebereiche, unterschiedliche Geräteabstände und neue Wartungsanforderungen angepasst.

Um diesen Veränderungen Rechnung zu tragen und den Kapazitätsausbau zu beschleunigen, beginnt die Integration von mechanischen, elektrischen, thermischen und Firmware-Systemen bereits viel früher im Designzyklus.

Rechenzentrumsbetreiber setzen auf modulare Bauweisen, die die Lücke zwischen KI-getriebener Nachfrage und traditionellen Bauzeiten schließen.

Ein Grund: Bei der Inbetriebnahme komplexer, flüssigkeitsgekühlter Hochspannungs-Gleichstromsysteme vor Ort in einem laufenden Rechenzentrum konzentriert sich das Terminrisiko, und jede Verzögerung bei der Inbetriebnahme eines Programms dieser Größenordnung ist kostspielig.

Vorgefertigte modulare Rechenzentrumslösungen (PMDC) PMDC-Lösungen sind werkseitig vorgefertigte, vorkonfigurierte Einheiten, die eine skalierbare, planbare und effiziente Kapazitätserweiterung ermöglichen. Durch die Integration von Stromversorgung und Kühlung in schlüsselfertige Einheiten im Werk wird die Leistungsvorhersagbarkeit verbessert, die Installation vereinfacht und die Modulproduktion sowie die Arbeiten vor Ort parallel durchgeführt. Wir haben festgestellt, dass PMDC-Lösungen Projektlaufzeiten um 30 Prozent oder mehr verkürzen und gleichzeitig den Personalaufwand vor Ort deutlich reduzieren können. Darüber hinaus werden Tests und Verkabelung vor Ort um bis zu 70 Prozent reduziert, wenn PMDC-Lösungen werkseitig vorverdrahtet und vorgetestet werden. Änderungen im Feld werden minimiert.

Die Sicherheit bei Bau- und Inbetriebnahmeprozessen treibt die Einführung von PMDC-Lösungen ebenfalls voran. Bei komplexen Integrationen im Werk werden die Systeme mit validierten Schutzmechanismen und Verriegelungen vor Ort eingesetzt. Integrierte Systemtests unter simulierten Fehlerbedingungen werden vor der Inbetriebnahme durchgeführt, wodurch das Risiko für Personen, Anlagen und Einrichtungen minimiert wird.

Dringender Bedarf. Koordinierte Lösungen.

Die Nachfragekurve für KI-Recheninfrastruktur ist beispiellos für die Technologiebranche. Weltweit steigt die Nachfrage nach Rechenzentrumsleistung. hat sich in fünf Jahren verdoppelt, Der Energieverbrauch von KI wächst um das 4,5-Fache. Mehr als 135 Billionen Dollar Im Jahr 2026 werden Investitionen in den Ausbau des Rechenzentrums getätigt.

Der Wettlauf um den Ausbau von KI-Rechenzentren ist real und dringlich. Die technischen Herausforderungen sind enorm, nicht etwa weil die einzelnen Technologien nicht existieren – die gibt es –, sondern weil sich Topologie, Marktstruktur und Standards schneller verändern, als die Branche mit der Entwicklung, Zertifizierung und Implementierung reagieren kann.

Die Einschränkungen, die alle beunruhigen – Energie, Lieferketten, Nachhaltigkeit – verschwinden nicht. Sie verstärken sich sogar. Erfolgreiche Organisationen sind diejenigen, die diese Einschränkungen koordinieren, anstatt nur einzeln darauf zu reagieren. Die Lösung liegt nicht in einer einzelnen Technologie und auch nicht in einem einzelnen Unternehmen. Sie liegt in der praktischen Umsetzung. Bei sich ändernden Topologien bedeutet das, Systeme statt einzelner Komponenten zu entwickeln und Rack und Rechenzentrum von Anfang an als integrierte Architekturen zu betrachten.

Nächstes Mal werden wir uns ein zweites und ebenso folgenreiches verstecktes Risiko für den Ausbau von Rechenzentren genauer ansehen: Marktchaos.

Die versteckten Risiken gefährden die rasante Expansion von KI-Rechenzentren

Die Serie ‘Wettlauf um die beste Größe’: Teil 1 von 3