KI-Workloads verändern die Anforderungen an die Stromversorgung in modernen Rechenzentren grundlegend. Extrem hohe Strombedarfe, zunehmend vertikale Stromversorgungswege und fortschrittliche thermische Architekturen erfordern von heutigen Energieingenieuren weit mehr Kenntnisse als die herkömmliche DC/DC-Wandlung.
Diese Anleitung erklärt, wie 20 wesentliche Begriffe Stoßkraftsysteme, organisiert in drei Abschnitte:
- Architekturen und Topologien zur Stromversorgung
- Steuerung, Schutz und digitale Optimierung
- KI, Kühlung und systemweite Trends, die das Stromversorgungsdesign beeinflussen
1. Kernarchitekturen zur Stromversorgung, die KI-Systeme prägen
Moderne KI-Hardware verbraucht extrem viel Energie – oft mehrere Kilowatt pro Prozessor – über komplexe, mehrstufige Wandlungspfade. Das Verständnis der Architektur dieses Stromflusses ist die Grundlage für das Energiedesign von KI-Servern.
HVDC – Hochspannungs-Gleichstromverteilung
Gleichspannungen oberhalb der SELV-Niveaus (typischerweise >60 V DC) werden in Geräten zur Versorgung von Hochspannungs-DC/DC-Wandlern eingesetzt. Dies verbessert die Umwandlungseffizienz und ermöglicht den Betrieb von Lasten mit höherem Stromverbrauch, wie z. B. KI-Beschleunigern. Beispiele hierfür sind ±400 V und +800 V. Bei Rack-Leistungen über 100 kW ist die Stromverteilung mit ±400 V oder +800 V HGÜ eine effiziente Option. Der geringere Verteilungsstrom reduziert Kupferverluste, Kabelquerschnitte und die Anzahl der Wandlungsstufen, bevor der Strom den Server erreicht.
IBA – Intermediate Bus Architecture
Das Stromversorgungssystem von Rechenzentren nutzt einen 48-V- oder 12-V-Zwischenkreis zur Speisung von Spannungsreglermodulen. Vom HGÜ-Netz wird typischerweise in ein IBA-System übergegangen – ein gestuftes Verfahren, bei dem die Spannung zunächst auf eine stabile Zwischenspannung umgewandelt und anschließend lokal geregelt wird. In KI-Servern liegt diese Zwischenspannung häufig zwischen 48 und 54 V, gewählt aus Gründen der Sicherheit und Effizienz.
DCX – Gleichstromtransformator
Isolierte DC/DC-Wandlerstufe mit festem Übersetzungsverhältnis für effiziente Buswandlung bei hoher Leistung. Ein Schlüsselelement in HGÜ-basierten Architekturen. DCX DCXs übertragen Leistung zwischen verschiedenen Spannungsebenen mittels Isolation und Festverhältniswandlung. Sie ermöglichen eine hocheffiziente Hochleistungsverteilung tiefer im Rack oder Servergehäuse vor der endgültigen Regelung.
LLC – Induktivität-Induktivität-Kondensator-Resonanzwandler
Hocheffiziente Resonanzwandler werden in Netzteilen für geringes Rauschen und hohe Leistungsdichte eingesetzt. LLC-Wandler finden breite Anwendung in Eingangs- oder Zwischenstufen, um auch unter wechselnden Lastbedingungen einen hohen Wirkungsgrad zu erzielen. Ihre Soft-Switching-Eigenschaften machen sie ideal für die anspruchsvollen thermischen Anforderungen von KI-Umgebungen.
Spannungsreglermodule (VRM)
Modul zur präzisen Stromversorgung von Prozessoren oder integrierten Schaltungen. KI-Beschleuniger benötigen Subvolt-Leistung bei Hunderten oder sogar Tausenden von Ampere. VRMSie stellen die letzte Regelungsstufe dar, die diese Leistung direkt an das xPU-Gehäuse (CPU/GPU/NPU usw. – siehe Abschnitt 3) liefert. Ihre Impulsantwort ist einer der wichtigsten Leistungsfaktoren in KI-Boards.
TLVR – Transinduktor-Spannungsregler
Fortschrittliche Spannungsregelungstopologie mit gekoppelten Induktivitäten für die Hochstromversorgung von CPUs. TLVR Es handelt sich um eine VRM-Architektur der nächsten Generation, die ein schnelleres Einschwingverhalten und einen verbesserten Wirkungsgrad bei hohen Strömen bietet. Da KI-Beschleuniger extreme Lastsprünge verursachen, werden TLVR-Designs zunehmend unerlässlich.
VPD – Vertikale Leistungsabgabe
Die Stromversorgungsarchitektur leitet den Strom direkt vom Platinenrand zu ASICs oder GPUs mit hohem Stromverbrauch. Dies dient dazu, die Einschränkungen der lateralen Leiterbahnführung auf Leiterplatten zu überwinden., VPD Die Stromversorgung erfolgt vertikal durch Interposer oder Gehäuseschichten. Durch die Verkürzung der Strompfade verbessert VPD die Verteilungseffizienz und reduziert den Spannungsabfall – essenziell für KI-Prozessoren mit hohem Stromverbrauch.
TDP – Thermische Auslegungsleistung
Die maximale Dauerleistungsaufnahme eines Geräts unter typischen Arbeitslasten wird als TDP (Thermal Design Power) bezeichnet. Für Energieingenieure ist das Verständnis der TDP unerlässlich, da sie die thermische Dauerbelastungsgrenze jedes KI-Prozessors definiert und somit Einfluss auf Leistungsbudgets, Modulplatzierung und Reglerdichte hat. Eine höhere TDP erfordert eine engere Abstimmung zwischen elektrischer und Kühlungsentwicklung.
CESS – Kapazitives Energiespeichersystem
Lokale Energiespeichersysteme mit hoher Kapazität (z. B. Ultrakondensatoren) absorbieren oder liefern schnelle Lastspitzen und stabilisieren die Spannung bei plötzlichen Stromänderungen in Hochleistungs-Energiesystemen wie KI-Beschleunigerplatinen. Durch die Aufnahme und Abgabe von Ladung in der Nähe der Last wird die Spannung stabilisiert. CESS reduziert die Belastung der vorgelagerten Umrichter und stabilisiert das Stromverteilungsnetz.
PDN – Stromversorgungsnetz
Hierarchisches Stromversorgungssystem. Das PDN umfasst den gesamten Strompfad – von der Rack-Zuführung über die VRMs bis hin zu den Silizium-Leistungsverbindern. Die Entwicklung eines niederohmigen PDN ist unerlässlich, um die Spannungsstabilität zu gewährleisten und Leistungseinbußen bei KI-Workloads zu vermeiden.
Zusammen bilden diese Konzepte die strukturelles Rückgrat der modernen KI-gestützten Stromversorgung.
2. Steuerung, Telemetrie und Schutz in KI-Energiesystemen
Da KI-Beschleuniger hochdynamische und manchmal unvorhersehbare Stromprofile erzeugen, sind moderne Stromversorgungssysteme auf intelligente Steuerungsschnittstellen, Überwachungsfunktionen und robuste Schutzsysteme angewiesen, um einen sicheren und stabilen Betrieb zu gewährleisten.
PMBus™ – Energiemanagementbus
Digitaler Kommunikationsschnittstellenstandard für Leistungswandler und Monitore. PMBus Bietet Echtzeitkonfiguration und Telemetrie für DC/DC-Wandler. Es ermöglicht Entwicklern von Stromversorgungssystemen die Überwachung von Spannungen, Strömen, Temperaturen, Fehlerzuständen und Leistungskennzahlen über Tausende von Knoten in einem KI-Cluster hinweg.
AVS – Adaptive Spannungsskalierung
AVS ermöglicht es der xPU (CPU/GPU/NPU usw. – siehe Abschnitt 3), präzise Spannungsanpassungen basierend auf der Arbeitslast oder dem Verhalten des Siliziums anzufordern. Dies reduziert den Stromverbrauch, verbessert die Leistung pro Watt und stabilisiert schnelle Laständerungen, wie sie typisch für KI-Inferenz und -Training sind.
DLC – Dynamische Lastkompensation
Die dynamische Lastkompensation (DLC) stabilisiert die Ausgangsspannung des Umrichters bei schnellen Laständerungen durch Anpassung des Regelkreisverhaltens und Anwendung von Vorsteuerungsverfahren. DLC verhindert Spannungsunterschwingen und -überschwingen beim Umschalten von KI-Beschleunigern von Leerlauf auf Volllast innerhalb von Mikrosekunden und stellt so sicher, dass PDN und VRM innerhalb der Toleranz bleiben.
OCP – Überstromschutz
Schützt Umrichter, Sammelschienen und nachgeschaltete Geräte vor Überstromereignissen wie Kurzschlüssen oder Fehlerzuständen. In KI-Servern – mit mehrphasigen VRMs, die Hunderte von Ampere liefern – ist eine schnelle und koordinierte OCP-Reaktion unerlässlich, um Kaskadenausfälle zu verhindern.
3. KI, Kühlung und Systemtrends bestimmen den Energiebedarf
Um Stromversorgungssysteme für KI-Workloads zu entwickeln, müssen Ingenieure die Rechen- und Kühlkräfte verstehen, die die Grenzen der elektrischen Auslegung bestimmen. Diese systemweiten Trends beeinflussen alles, vom dynamischen Verhalten bis hin zur Gesamtleistungsaufnahme des Racks.
LLM – Großes Sprachmodell
KI-Modelle wurden anhand umfangreicher Datensätze für generative oder analytische Sprachaufgaben trainiert. LLMs (wie z. B. Modelle der GPT-Klasse) benötigen enorme Rechenressourcen und damit auch einen hohen Energieverbrauch. Ihre sprunghaften, parallelen Arbeitslasten prägen die transienten Eigenschaften, mit denen VRMs, PDNs und lokale Energiespeichersysteme umgehen müssen.
xPU – CPU / GPU / TPU / NPU / IPU / FPGA
Oberbegriff für alle Arten von Rechenbeschleunigern – CPU (Zentral), GPU (Grafik), DPU (Daten), TPU (Tensor), IPU (Intelligenz) und andere –, die in modernen KI-Systemen zusammenarbeiten.
HBM – Speicher mit hoher Bandbreite
3D-gestapelter Speicher bietet sehr hohe Bandbreite für KI/HPC-Beschleuniger. HBM erhöht die thermische Dichte um die xPU herum erheblich und erfordert präzise geregelte Niederspannungs-Stromschienen. Die Nähe zum Rechenchip beeinflusst die VRM-Platzierung und die thermischen Anforderungen der Leistungsstufe.
D2C – Direkte Chipkühlung
D2C Die Flüssigkeitskühlung erfolgt direkt an den Kühlplatten des Prozessorgehäuses. Dies ermöglicht deutlich höhere TDP-Werte und beeinflusst, wie viel elektrische Leistung die VRMs und das PDN liefern müssen und wie eng thermisches und elektrisches Design aufeinander abgestimmt sein muss.
CDU – Kühlmittelverteilereinheit
Die CDU Regelt Durchfluss, Druck und Temperatur im Kühlkreislauf. Seine Leistung beeinflusst direkt die zulässige elektrische Last, die VRM-Temperaturen und den Wirkungsgrad des Systems.
PUE – Energieeffizienz
Die wichtigste Kennzahl für die Effizienz von Rechenzentren ist der Gesamtenergieverbrauch der Anlage geteilt durch den Energieverbrauch der IT-Geräte. Verbesserungen bei der Wandlereffizienz, dem VRM-Design, der PDN-Optimierung und der Flüssigkeitskühlung tragen alle zu einem besseren PUE im großen Maßstab bei.
Abschluss
Die KI-Revolution hat ein neues Umfeld geschaffen, in dem Leistungselektronik, Rechnerarchitektur, Kühltechnologien und Systemoptimierung untrennbar miteinander verbunden sind. Das Verständnis dieser 20 grundlegenden Begriffe hilft Ingenieuren, das nötige Wissen zu erlangen, um zuverlässige und hocheffiziente Stromversorgungssysteme für die immer anspruchsvolleren KI-Anwendungen von heute zu entwickeln und zu skalieren.
Da sich Architekturen weiterentwickeln – mit höheren TDPs, dichteren PDNs, fortschrittlichen VRMs und VPDs, Flüssigkeitskühlung und HVDC-Verteilung – wird es unerlässlich, die Sprache des modernen Stromversorgungsdesigns fließend zu beherrschen.
Um Ihr Fachwissen weiter auszubauen, haben wir eines der umfassendsten und ständig aktualisierten technischen Glossare der Branche zusammengestellt. Speichern Sie das vollständige Glossar der technischen Abkürzungen für Flex-Leistungsmodule am besten gleich als Lesezeichen, um Ihr Verständnis zu vertiefen und über neue Trends im Bereich der Leistungselektronik informiert zu bleiben.