Nutzung von Flüssigkeitskühlung in KI-Rechenzentren

Einführung

Dieser Artikel erörtert die Notwendigkeit und die Vorteile der Flüssigkeitskühlung in KI-Rechenzentren. Im Fokus stehen die Herausforderungen durch leistungsstarke KI-Server und die Vorteile von Vertical Power Module (VPM)-Systemen. Verschiedene Kühlmethoden werden vorgestellt, praxisnah verglichen und die Auswirkungen auf die zugehörigen DC/DC-Wandler erläutert.

Wenn ein Markt wie der für KI-Server explosionsartig wächst, ist sein potenzielles Volumen schwer vorherzusagen. Dennoch schätzen die Analysten von ‘Research and Markets’, dass sich der Wert dieses Segments bis 2029 vervierfachen und auf über 35 Billionen US-Dollar steigen wird.^[1]. Obwohl Server für KI-Anwendungen derzeit nur 10–151 TP34T des gesamten Rechenzentrumsmarktes ausmachen, sind sie sehr energiehungrig. Die neuesten GPUs für KI-Server, wie beispielsweise die Nvidia GB200 (eine Kombination aus zwei Blackwell-GPUs und einer Grace-CPU), verbrauchen im Dauerbetrieb über 1 kW und in Spitzenzeiten über 2,5 kW. Dies ist ein deutlicher Fortschritt gegenüber der Vorgängergeneration, der Nvidia Core GPU H100, die mit 700 W arbeitete und lediglich 201 TP34T Rechenleistung bot.

Prozessoren benötigen lokale Stromversorgungen von DC/DC-Wandlern, die möglichst nah am Prozessor platziert werden müssen, um statische und dynamische Spannungsabfälle an den Verbindungen zu vermeiden. Bei den in KI-Servern üblichen höheren Leistungsstufen sind seitlich um die Prozessoren angeordnete Wandler jedoch nicht nah genug und behindern zudem die Signalwege. Ein relativ neuer Ansatz, der von Herstellern von DC/DC-Wandlern wie den Flex-Leistungsmodulen entwickelt wurde, … ^[2] Es handelt sich um ein vertikales Leistungsmodul (VPM) mit DC/DC-Wandler, das direkt unter dem Prozessor auf der Unterseite der Leiterplatte platziert ist (Abbildung 1). Dadurch befindet sich der Mehrkanal-DC/DC-Wandler in der optimalen elektrischen Position, um die Leistung mit minimalen Verlusten im Stromversorgungsnetz (PDN) zu übertragen.

Abbildung 1: Vertikale Stromversorgung eines Prozessors

In der Praxis wird ein VPM (Variable Power Module) für eine spezifische Prozessor- und Serverkonfiguration entwickelt, da seine Pinbelegung mit der des Prozessors übereinstimmen muss, um eine einfache Leiterbahnführung auf der Leiterplatte zu gewährleisten. Für optimale Leistung sollte ein VPM in die thermische Modellierung einbezogen und idealerweise mit seiner Kühlplatte auf der Unterseite der Leiterplatte flüssigkeitsgekühlt werden. Das flache Design des VPM mit seiner großen Oberfläche harmoniert mechanisch gut mit der direkten Flüssigkeitskühlung des Prozessors über eine Kühlplatte, wie sie bei KI-Servern mit hohem Leistungsbedarf eingesetzt wird. Dies steht im Gegensatz zur herkömmlichen seitlichen Platzierung von DC/DC-Wandlern, die typischerweise auf minimalen Platzbedarf und Zwangsluftkühlung ausgelegt sind. All dies bedeutet, dass der VPM bereits früh in der Systemspezifikationsphase berücksichtigt und in die Auslegung der Kühlplattenanordnung integriert werden kann.

Die Notwendigkeit von Flüssigkeitskühlung im Vergleich zu Konvektionskühlung lässt sich anhand der Verlustleistung pro Quadratzentimeter Prozessorfläche abschätzen, wobei etwa 50 W/cm² gemessen werden.² als empfohlener Haltepunkt, abhängig von der Rackgröße (Abbildung 2Bei niedrigeren Leistungsdichten war die Zwangsluftkühlung üblich, jedoch sind Kühlkörper mit Kühlrippen groß, und die heiße Abluft kann über andere Komponenten strömen und die Zuverlässigkeit beeinträchtigen. Dies lässt sich zwar abmildern, indem Prozessor und Kühlkörper nahe am Luftaustritt im Servergehäuse platziert werden, stellt aber eine unerwünschte Einschränkung für das Platinendesign dar.

Abbildung 2: Eine Flüssigkeitskühlung der Chips ist ab etwa 50 W/cm² erforderlich.²Dissipation

Flüssigkeitskühlung ist daher in jeder Leistungsklasse ein technischer Vorteil, lässt sich aber nicht einfach nachrüsten. Ein optimales System erfordert einen von Grund auf neu entwickelten Ansatz, der auch andere wärmeerzeugende Komponenten wie die DC/DC-Wandler der lokalen Stromschienen berücksichtigt.

Kühlmethoden

Was macht Flüssigkeitskühlung so viel besser? Zu den Vorteilen zählen ein effizienterer Wärmetransport, der zu kleineren Abmessungen, geringerem Energieverbrauch und reduzierten Betriebskosten führt. Flüssigkeitskühlung macht zudem zumindest einen Teil der lauten und relativ unzuverlässigen Lüfter in der Nähe der Kühllast überflüssig, obwohl weiterhin ein zentraler Wärmetauscher zur Wärmeabfuhr aus der Flüssigkeit erforderlich ist. Dies geschieht üblicherweise durch Luftkühlung an die Umgebung oder in einen anderen Wasserkreislauf, der beispielsweise für die Heizung genutzt werden könnte. Die Nachteile der Flüssigkeitskühlung sind höhere Installationskosten, eine dadurch verzögerte Amortisation und eine potenziell geringere Systemverfügbarkeit im Fehlerfall – da die Flüssigkeitskühlung zentraler organisiert ist als einzelne Serverlüfter.

Eine geschlossene ‘Hybrid’-Flüssigkeitskühlanlage ist dargestellt in Abbildung 3, Hierbei wird die Wärme vom Prozessor auf eine Kühlplatte mit integrierten Wasserkanälen übertragen. Diese Anordnung wird als Direkt-auf-Chip-Kühlung (DTC) bezeichnet. Die Größe der Kühlplatte entspricht typischerweise der Grundfläche des zu kühlenden Bauteils. Sie muss lediglich dick genug sein, um die Kanäle aufzunehmen. Es handelt sich um eine einphasige Kühlung, bei der das Kühlmittel, üblicherweise Wasser, eingeschlossen ist und permanent flüssig bleibt. Diese Technik bietet eine deutliche Verbesserung der Wärmeabfuhr im Vergleich zur Luftkühlung, wie wir später quantifizieren werden. Ein weiterer Vorteil lässt sich durch die Verwendung einer fluorkohlenstoffbasierten Flüssigkeit mit etwa zehnmal höherer Wärmeleitfähigkeit erzielen. Erhitzt sich diese Flüssigkeit auf ihren Siedepunkt von etwa 50 °C, ermöglicht die Verdampfungswärme des üblicherweise verwendeten Fluorkohlenstoffs in einer zweiphasigen Kühlung eine etwa hundertfach höhere Wärmeaufnahme pro Volumeneinheit Flüssigkeit als in einer einphasigen Kühlung. Ein weiterer Vorteil ist, dass dielektrisches Kühlmittel im Falle eines Lecks die Bauteile deutlich weniger beschädigt als Wasser. Allerdings ist die Implementierung einer zweiphasigen Kühlung vergleichsweise teurer. In der Praxis wird das Wärmeleitmaterial zwischen Prozessor und Kühlplatte zu einem begrenzenden Faktor, wodurch die einphasige Anordnung insgesamt eine gute Lösung darstellt.

Abbildung 3: Das Diagramm zeigt ein einphasiges, wasserbasiertes Direkt-Chip-Flüssigkeitskühlsystem mit Flüssigkeits-Luft-Wärmetauscher.

Eine weitere Möglichkeit ist die Immersionskühlung, bei der das gesamte elektronische System in ein offenes Bad mit dielektrischer Flüssigkeit eingetaucht wird. Dies kann äußerst effektiv sein, da die Flüssigkeit zu einem Wärmetauscher, beispielsweise einem Kühlturm, zirkuliert. Allerdings besteht verständlicherweise eine gewisse Zurückhaltung gegenüber der Immersionskühlung aufgrund von Umweltbedenken, der Möglichkeit von Leckagen und der Tatsache, dass die Kühlung einen einzigen Ausfallpunkt für ein gesamtes Rack darstellt. Die verwendete Flüssigkeit ist nichtleitend, besitzt aber typischerweise eine etwa doppelt so hohe Dielektrizitätskonstante wie Luft. Dies verdoppelt die Streukapazität in der Flüssigkeit und kann Hochfrequenz-Signalleitungen beeinträchtigen. Das System kann ein- oder zweiphasig sein.

Praktische Vergleiche

Das wichtigste Kriterium für die relative Leistungsfähigkeit von Luft- und Flüssigkeitskühlung ist die Wärmekapazität, auch thermische Kapazität genannt. Sie gibt die Leistung an, die benötigt wird, um 1 kg des Mediums innerhalb einer Sekunde um 1 °C zu erwärmen. Der Wert für Wasser beträgt 4,2 kJ/kg, für Luft 1,0 kJ/kg. 1 kg Luft entspricht etwa 0,85 m³.³ 1 kg Wasser entspricht etwa 1 Liter oder 0,001 m³.³ Um die gleiche Wärmemenge zu ‘bewegen’, wird also das 3600-fache Volumen an Luft im Vergleich zu Wasser benötigt.

Um die relative Leistungsfähigkeit verschiedener Kühlmethoden zu vergleichen, betrachten wir einen Prozessor mit einer Verlustleistung von beispielsweise 1 kW (Q) und einer Oberflächentemperatur von maximal 80 °C bei einer maximalen Umgebungstemperatur von 50 °C und einer Luftgeschwindigkeit von 5 m/s. Dieser Prozessor benötigt ein Kühlkörpervolumen V von etwa 2700 cm³.³, aus der vereinfachten Beziehung: V=(QRV)/ΔT ^[3]. Dies setzt voraus, dass der Luftstrom von 5 m/s einen volumetrischen Wärmewiderstand (RV) des Kühlkörpers von 80 cm³ ergibt.³ °C/W.

Ein Kühlkörper dieser Größe, etwa ein Würfel mit 14 cm Kantenlänge, ist eindeutig unpraktisch. Die Größe ließe sich zwar reduzieren, jedoch nur unter dem gleichen Preis: höhere Hardware- und Energiekosten zur Senkung der Umgebungstemperatur oder ein Anstieg der Prozessortemperatur, was die Zuverlässigkeit beeinträchtigen würde, da die Chiptemperatur noch höher wäre. Die abgeführte Wärme wird über andere Komponenten geleitet und lokal zum Serverrack abgeführt, wo die Luft anschließend durch die Klimaanlage des Rechenzentrums gekühlt wird. Hinzu kommt, dass für einen Temperaturanstieg der Luft von Einlass zu Auslass von beispielsweise 20 °C und eine Verlustleistung von 1 kW ein Luftdurchsatz von etwa 40 Litern pro Sekunde erforderlich ist. Bei einer Luftgeschwindigkeit von 5 m/s benötigt man dafür einen Mindestquerschnitt für den Luftweg von etwa 8 cm².² die durch das Servergehäuse hindurch aufrechterhalten werden muss.

Im Gegensatz dazu kann in einem flüssigkeitsgekühlten System eine Kühlplatte einen Wärmewiderstand gegenüber der Flüssigkeit von nur 0,01 °C/W aufweisen. Bei 1 kW und einer maximalen Chipoberflächentemperatur von 80 °C sollte die Wassertemperatur daher auf maximal 70 °C ansteigen, vorausgesetzt, es gibt keine anderen Wege der Wärmeabfuhr. Für eine Wassereintrittstemperatur von beispielsweise 25 °C lässt sich der erforderliche Massenstrom (MFR) des Wassers wie folgt berechnen: MFR = Q/ΔT.c ^[4], wobei c die spezifische Wärmekapazität von Wasser (4,2 kJ/kg°C) ist. Dies ergibt einen MFR von 0,005 kg/Sekunde bzw. 5 cm³.³/Sekunde, was einer Durchflussrate von nur etwa 6,4 cm/Sekunde durch ein Rohr mit 1 cm Durchmesser entspricht, was problemlos erreicht werden kann.

Das heiße Wasser gelangt zu einem Wärmetauscher, typischerweise einem Rippenradiator. Dieser kann jedoch relativ klein und effizient sein, da die Kühlmittelleitungen gleichmäßig verteilt werden können, anders als bei einem Prozessor-Kühlkörper, wo die Wärmequelle auf einen kleinen Bereich konzentriert ist.

Abschluss

Angesichts der enormen Leistungsaufnahme moderner KI-Prozessoren ist Flüssigkeitskühlung unerlässlich geworden. Die abgegebene Wärmemenge in Kilowatt hat auch Auswirkungen auf die Positionierung und Kühlung der zugehörigen DC/DC-Wandler und muss daher in die gesamte Wärmeplanung einbezogen werden.

(erstmals veröffentlicht in Neuigkeiten aus der Leistungselektronik)

Referenzen

[1] https://www.researchandmarkets.com/report/artificial-intelligence-server

[2] https://flexpowermodules.com

[3] https://celsiainc.com/resource…

[4] Simons, R., Schätzung der Temperaturen in einem Wasser-Luft-Hybridkühlsystem, Electronics Cooling, Mai 2002

Nutzung von Flüssigkeitskühlung in KI-Rechenzentren

Einführung

Kühlmethoden

Praktische Vergleiche

Abschluss

Stay connected