Ein Gespräch mit Rick Payne, Vizepräsident für Design und Entwicklung bei Flex, über Innovation, Wassereffizienz und thermisches Design der nächsten Generation
KI verändert die Wärmeableitung grundlegend. Wir bewegen uns von relativ vorhersehbaren, CPU-basierten Arbeitslasten hin zu GPU-getriebenen Umgebungen mit extrem hoher Leistungsdichte und hochdynamischen Lastprofilen. Das bedeutet, dass die Wärme konzentrierter, variabler und mit herkömmlichen, luftgekühlten Systemen deutlich schwieriger zu beherrschen ist. Kühlung beschränkt sich nicht mehr nur auf die Aufrechterhaltung der Umgebungstemperatur; es geht darum, die Wärme präzise an der Quelle – auf Chipebene – in Echtzeit abzuführen. Genau hier setzt die KI an. Flüssigkeitskühlung direkt am Chip wird unerlässlich, nicht mehr optional.
Die Wassernutzungseffizienz (WUE) ist zu einer entscheidenden Kennzahl geworden, da Rechenzentren heute in großem Umfang um begrenzte Süßwasserressourcen konkurrieren. Manche Anlagen verbrauchen Millionen Liter Wasser pro Tag, was langfristig schlichtweg nicht tragbar ist. Die Herausforderung besteht darin, dass viele herkömmliche Kühlverfahren einen Kompromiss erzwingen: Man kann entweder die Energie- oder die Wassereffizienz optimieren, aber nicht beides. Verdunstungskühlsysteme sind beispielsweise energieeffizient, aber wasserintensiv. Unser Ziel ist es, diesen Zielkonflikt aufzulösen. Wir wollen eine Hochleistungskühlung mit minimalem oder gar keinem Wasserverbrauch auf Anlagenebene ermöglichen.
Flüssigkeitskühlung Dies verbessert die Wärmeübertragungseffizienz grundlegend. Wasser oder dielektrische Flüssigkeiten können Wärme deutlich effektiver aufnehmen und abführen als Luft. Bei der direkten Kühlung des Chips wird die Wärme genau dort abgeführt, wo sie entsteht, anstatt den gesamten Rechenzentrumsraum zu kühlen.
Dies hat zwei große Vorteile:
In vielen Fällen können Kühltürme ganz vermieden oder deutlich reduziert werden, was sich direkt und positiv auf die Wassernutzungseffizienz auswirkt.
Flüssigkeitskühlung ist nicht gleich Flüssigkeitskühlung. Die eigentliche Innovation liegt darin, wie effizient die Wärme vom Chip abgeführt und aus dem System abgeleitet werden kann. Der Unterschied besteht darin, ob die Kühlung als Systemoptimierung oder lediglich als Ergänzung zur bestehenden Infrastruktur betrachtet wird.
Fortgeschrittenere Ansätze konzentrieren sich auf vier Kernpunkte:
Dieses Modell lässt sich zunehmend schwerer skalieren. Wenn die Kühlung stark von zentralisierter Infrastruktur wie großen Kühlanlagen oder wasserintensiven Systemen abhängt, entstehen Einschränkungen hinsichtlich Energie, Wasserverfügbarkeit und Platzbedarf. Wir beobachten daher einen Wandel hin zu dezentraleren, modularen Kühlarchitekturen, die näher an den Rechenressourcen arbeiten. Dies reduziert Verluste, verbessert die Reaktionsfähigkeit und bietet Betreibern mehr Flexibilität bei sich ändernden Arbeitslasten. Im KI-Bereich muss Effizienz von Anfang an in das System integriert werden und darf nicht nachträglich hinzugefügt werden.
Ja, aber es erfordert eine durchdachte Integration. Die meisten bestehenden Rechenzentren wurden nicht für die Leistungsdichten und Wärmelasten von KI ausgelegt, daher ist eine Nachrüstung nicht so einfach wie der Austausch einer Kühlmethode. Viele Betreiber setzen jedoch erfolgreich auf Hybridlösungen und integrieren Flüssigkeitskühlung in gezielte Bereiche der bestehenden Rechenzentren. So können sie GPU-Cluster unterstützen, ohne die gesamte Anlage umzubauen.
Der Schlüssel liegt in Modularität und Skalierbarkeit. Modulare Flüssigkeitskühlsysteme lassen sich schrittweise, Rack für Rack oder Reihe für Reihe, implementieren und parallel zu bestehender luftgekühlter Infrastruktur betreiben. Dies minimiert Ausfallzeiten und ermöglicht es Betreibern, Kapazität und Effizienz schrittweise zu steigern. Aus Sicht der Energieeffizienz bieten Nachrüstungen zudem die Möglichkeit, den Bedarf an wasserintensiven Kühlmethoden zu reduzieren.
Beide Ansätze übertreffen die Luftkühlung deutlich, unterscheiden sich jedoch in ihren Auswirkungen auf WUE, PUE und die Implementierungszeit. Die direkte Flüssigkeitskühlung des Chips verbessert den PUE-Wert durch effiziente Wärmeabfuhr direkt an der Quelle und kann die Abhängigkeit von Verdunstungskühlung verringern, was wiederum den WUE-Wert steigert. Sie lässt sich zudem leichter nachrüsten und ist somit der schnellste Weg zur Skalierung von KI-Workloads. Die Immersionskühlung kann die Effizienz, insbesondere bei extrem hohen Dichten, noch weiter steigern und bietet erhebliches Potenzial für WUE und PUE. Sie erfordert jedoch grundlegende Änderungen an Hardware, Betriebsabläufen und Anlagendesign. Daher befindet sie sich größtenteils noch in der Pilot- oder frühen Einführungsphase, während die direkte Flüssigkeitskühlung des Chips sich zum kurzfristigen Standard entwickelt.
Hier wird ein ganzheitlicher Effizienzansatz unerlässlich. Die isolierte Optimierung einer Kennzahl kann unbeabsichtigte Folgen an anderer Stelle nach sich ziehen. Beispielsweise lässt sich der PUE-Wert senken, während gleichzeitig der Wasserverbrauch steigt. Die Rechenleistung kann verbessert werden, während die Kühlung komplexer wird. Und der Energieverbrauch kann reduziert werden, während gleichzeitig kohlenstoffintensive Energiequellen genutzt werden. Die führenden Unternehmen in diesem Bereich managen diese Wechselwirkungen bewusst, und die Kühlung steht dabei im Zentrum. Sie beeinflusst direkt den Energie-, Wasser- und CO₂-Ausstoß.
Innovation ist der einzige Weg in die Zukunft. Die Entwicklung der KI schreitet unaufhaltsam voran, daher muss sich die Infrastruktur verantwortungsvoll weiterentwickeln, um sie zu unterstützen. Eine engere Zusammenarbeit im gesamten Ökosystem – zwischen Chipherstellern, Systemdesignern und Infrastrukturanbietern – ist unerlässlich. Das bedeutet:
Drei Dinge:
Die Zukunft liegt nicht in schrittweisen Verbesserungen bestehender Systeme. Dafür fehlt die Zeit. Es geht vielmehr darum, das Wärmemanagement als zentrale Voraussetzung für KI-Infrastruktur grundlegend neu zu denken.
Erfahren Sie, wie WUE, PUE und Kühlstrategien der nächsten Generation in ein ganzheitliches Rahmenwerk zur Effizienz von Rechenzentren passen.