Neuausrichtung der Wassernutzung in Rechenzentrumskühlsystemen für das KI-Zeitalter

KI-Workloads verändern die Anforderungen an Rechenzentren grundlegend. Was ist im KI-Zeitalter anders an der Kühlung?

KI verändert die Wärmeableitung grundlegend. Wir bewegen uns von relativ vorhersehbaren, CPU-basierten Arbeitslasten hin zu GPU-getriebenen Umgebungen mit extrem hoher Leistungsdichte und hochdynamischen Lastprofilen. Das bedeutet, dass die Wärme konzentrierter, variabler und mit herkömmlichen, luftgekühlten Systemen deutlich schwieriger zu beherrschen ist. Kühlung beschränkt sich nicht mehr nur auf die Aufrechterhaltung der Umgebungstemperatur; es geht darum, die Wärme präzise an der Quelle – auf Chipebene – in Echtzeit abzuführen. Genau hier setzt die KI an. Flüssigkeitskühlung direkt am Chip wird unerlässlich, nicht mehr optional.

Der Wasserverbrauch wird zu einem zentralen Thema. Wie sollten Betreiber in diesem neuen Umfeld die Wassernutzungseffizienz (WUE) betrachten?

Die Wassernutzungseffizienz (WUE) ist zu einer entscheidenden Kennzahl geworden, da Rechenzentren heute in großem Umfang um begrenzte Süßwasserressourcen konkurrieren. Manche Anlagen verbrauchen Millionen Liter Wasser pro Tag, was langfristig schlichtweg nicht tragbar ist. Die Herausforderung besteht darin, dass viele herkömmliche Kühlverfahren einen Kompromiss erzwingen: Man kann entweder die Energie- oder die Wassereffizienz optimieren, aber nicht beides. Verdunstungskühlsysteme sind beispielsweise energieeffizient, aber wasserintensiv. Unser Ziel ist es, diesen Zielkonflikt aufzulösen. Wir wollen eine Hochleistungskühlung mit minimalem oder gar keinem Wasserverbrauch auf Anlagenebene ermöglichen.

Wie verändert die Flüssigkeitskühlung die Gleichung für Leistung und Nachhaltigkeit?

Flüssigkeitskühlung Dies verbessert die Wärmeübertragungseffizienz grundlegend. Wasser oder dielektrische Flüssigkeiten können Wärme deutlich effektiver aufnehmen und abführen als Luft. Bei der direkten Kühlung des Chips wird die Wärme genau dort abgeführt, wo sie entsteht, anstatt den gesamten Rechenzentrumsraum zu kühlen.

Dies hat zwei große Vorteile:

Der erste Vorteil ist eine höhere Rechenleistung ohne thermische Einschränkungen.
Der zweite Vorteil besteht in einer geringeren Abhängigkeit von energie- und wasserintensiver Kühlinfrastruktur.

In vielen Fällen können Kühltürme ganz vermieden oder deutlich reduziert werden, was sich direkt und positiv auf die Wassernutzungseffizienz auswirkt.

Es gibt viele Diskussionen über verschiedene Kühlansätze. Was unterscheidet die fortschrittlichsten Systeme?

Flüssigkeitskühlung ist nicht gleich Flüssigkeitskühlung. Die eigentliche Innovation liegt darin, wie effizient die Wärme vom Chip abgeführt und aus dem System abgeleitet werden kann. Der Unterschied besteht darin, ob die Kühlung als Systemoptimierung oder lediglich als Ergänzung zur bestehenden Infrastruktur betrachtet wird.

Fortgeschrittenere Ansätze konzentrieren sich auf vier Kernpunkte:

Minimierung oder Beseitigung der Abhängigkeit von Verdunstungsprozessen
Gezielte Kühlung von Hitzespitzen anstatt des gesamten Raumes
Betrieb bei höheren Flüssigkeitstemperaturen zur Reduzierung des Energieaufwands
Ermöglichung von “Warmwasser”- oder kältemaschinenlosen Kühlarchitekturen

Einige Lösungen sind nach wie vor stark auf gebäudebezogene Kühlsysteme angewiesen. Ist das im Hinblick auf KI-Maßstab noch tragbar?

Dieses Modell lässt sich zunehmend schwerer skalieren. Wenn die Kühlung stark von zentralisierter Infrastruktur wie großen Kühlanlagen oder wasserintensiven Systemen abhängt, entstehen Einschränkungen hinsichtlich Energie, Wasserverfügbarkeit und Platzbedarf. Wir beobachten daher einen Wandel hin zu dezentraleren, modularen Kühlarchitekturen, die näher an den Rechenressourcen arbeiten. Dies reduziert Verluste, verbessert die Reaktionsfähigkeit und bietet Betreibern mehr Flexibilität bei sich ändernden Arbeitslasten. Im KI-Bereich muss Effizienz von Anfang an in das System integriert werden und darf nicht nachträglich hinzugefügt werden.

Die meisten Rechenzentren sind seit Jahren in Betrieb und setzen auf luftgekühlte Systeme. Können sie, wenn sie ihre ungenutzten Flächen für GPU-intensive Workloads umrüsten, Flüssigkeitskühlung einsetzen, um die höheren thermischen Belastungen zu bewältigen?

Ja, aber es erfordert eine durchdachte Integration. Die meisten bestehenden Rechenzentren wurden nicht für die Leistungsdichten und Wärmelasten von KI ausgelegt, daher ist eine Nachrüstung nicht so einfach wie der Austausch einer Kühlmethode. Viele Betreiber setzen jedoch erfolgreich auf Hybridlösungen und integrieren Flüssigkeitskühlung in gezielte Bereiche der bestehenden Rechenzentren. So können sie GPU-Cluster unterstützen, ohne die gesamte Anlage umzubauen.

Der Schlüssel liegt in Modularität und Skalierbarkeit. Modulare Flüssigkeitskühlsysteme lassen sich schrittweise, Rack für Rack oder Reihe für Reihe, implementieren und parallel zu bestehender luftgekühlter Infrastruktur betreiben. Dies minimiert Ausfallzeiten und ermöglicht es Betreibern, Kapazität und Effizienz schrittweise zu steigern. Aus Sicht der Energieeffizienz bieten Nachrüstungen zudem die Möglichkeit, den Bedarf an wasserintensiven Kühlmethoden zu reduzieren.

Wie schneiden die direkte Flüssigkeitskühlung des Chips und die Immersionskühlung im Hinblick auf WUE und PUE im Vergleich ab, und wie sieht ein realistischer Einführungszeitraum für die jeweilige Methode aus?

Beide Ansätze übertreffen die Luftkühlung deutlich, unterscheiden sich jedoch in ihren Auswirkungen auf WUE, PUE und die Implementierungszeit. Die direkte Flüssigkeitskühlung des Chips verbessert den PUE-Wert durch effiziente Wärmeabfuhr direkt an der Quelle und kann die Abhängigkeit von Verdunstungskühlung verringern, was wiederum den WUE-Wert steigert. Sie lässt sich zudem leichter nachrüsten und ist somit der schnellste Weg zur Skalierung von KI-Workloads. Die Immersionskühlung kann die Effizienz, insbesondere bei extrem hohen Dichten, noch weiter steigern und bietet erhebliches Potenzial für WUE und PUE. Sie erfordert jedoch grundlegende Änderungen an Hardware, Betriebsabläufen und Anlagendesign. Daher befindet sie sich größtenteils noch in der Pilot- oder frühen Einführungsphase, während die direkte Flüssigkeitskühlung des Chips sich zum kurzfristigen Standard entwickelt.

Wie sollten Rechenzentrumsbetreiber das Verhältnis von WUE zu anderen Kennzahlen wie PUE und CUE optimieren?

Hier wird ein ganzheitlicher Effizienzansatz unerlässlich. Die isolierte Optimierung einer Kennzahl kann unbeabsichtigte Folgen an anderer Stelle nach sich ziehen. Beispielsweise lässt sich der PUE-Wert senken, während gleichzeitig der Wasserverbrauch steigt. Die Rechenleistung kann verbessert werden, während die Kühlung komplexer wird. Und der Energieverbrauch kann reduziert werden, während gleichzeitig kohlenstoffintensive Energiequellen genutzt werden. Die führenden Unternehmen in diesem Bereich managen diese Wechselwirkungen bewusst, und die Kühlung steht dabei im Zentrum. Sie beeinflusst direkt den Energie-, Wasser- und CO₂-Ausstoß.

Welche Rolle spielt Innovation bei der Effizienzsteigerung der KI-Infrastruktur?

Innovation ist der einzige Weg in die Zukunft. Die Entwicklung der KI schreitet unaufhaltsam voran, daher muss sich die Infrastruktur verantwortungsvoll weiterentwickeln, um sie zu unterstützen. Eine engere Zusammenarbeit im gesamten Ökosystem – zwischen Chipherstellern, Systemdesignern und Infrastrukturanbietern – ist unerlässlich. Das bedeutet:

Ermöglichung neuer Architekturen, die die Interaktion von Energie- und Wärmesystemen verändern
Entwicklung von Kühlsystemen, die mit der Rechendichte skalieren
Den Ressourcenverbrauch an der Quelle reduzieren, anstatt ihn an anderer Stelle auszugleichen.

Mit Blick auf die Zukunft: Was wird die besten Kühlstrategien für KI-Rechenzentren ausmachen?

Drei Dinge:

Präzision — Kühlung genau dort, wo sie benötigt wird, auf Chipebene
Effizienz — Minimierung des Energie- und Wasserverbrauchs gleichzeitig
Anpassungsfähigkeit — Unterstützung sich schnell weiterentwickelnder KI-Hardware und -Workloads

Die Zukunft liegt nicht in schrittweisen Verbesserungen bestehender Systeme. Dafür fehlt die Zeit. Es geht vielmehr darum, das Wärmemanagement als zentrale Voraussetzung für KI-Infrastruktur grundlegend neu zu denken.

Sie wollen das Gesamtbild sehen?

Erfahren Sie, wie WUE, PUE und Kühlstrategien der nächsten Generation in ein ganzheitliches Rahmenwerk zur Effizienz von Rechenzentren passen.

E-Book herunterladen

Überdenken des Wasserverbrauchs in Rechenzentrumskühlsystemen für das KI-Zeitalter

Ein Gespräch mit Rick Payne, Vizepräsident für Design und Entwicklung bei Flex, über Innovation, Wassereffizienz und thermisches Design der nächsten Generation