Wenn Sie als Rechenzentrumsbetreiber Ihre Kapazitäten erweitern möchten, wissen Sie genau, dass die Sicherung des Netzzugangs ganz oben auf Ihrer To-do-Liste steht. Kein Strom, kein Rechenzentrum, wie man so schön sagt. Doch die enorme Netzbelastung durch KI und Hochleistungsrechnen (HPC) führt zu einem weiteren Problem, das schnell an Bedeutung gewinnt: StromqualitätWährend Rechenzentren mit herkömmlichen Workloads die Stromqualität weitgehend gelöst haben, bringen KI-/HPC-Anwendungen neue Herausforderungen mit sich, da sich die Art der Datenverarbeitung ändert.
Rechenzentren sind auf eine konstante, unterbrechungsfreie Stromversorgung angewiesen, um die Betriebszeit zu gewährleisten, die Geräte zu schützen und die Betriebseffizienz aufrechtzuerhalten. Die Gewährleistung einer hohen Stromqualität liegt sowohl in der Verantwortung des Energieversorgers als auch des Rechenzentrumsbetreibers. In diesem Blogbeitrag werfen wir einen Blick auf einige Faktoren, die die Stromqualität beeinflussen, und darauf, was Rechenzentrumsbetreiber tun können, um ihre Anlagen zu schützen, das Risiko von Geldstrafen zu reduzieren und im KI-Zeitalter gute Nachbarn für alle zu sein, die das Netz nutzen.
Die Stromqualität bezeichnet die Zuverlässigkeit, Stabilität und Sauberkeit der Stromversorgung des Rechenzentrums. Rechenintensive, zeitkritische KI-Verarbeitung und -Inferenzierung sind besonders anfällig für Stromanomalien wie Spannungsschwankungen, Frequenzabweichungen, Oberschwingungen, Ausfälle und vorübergehende (einmalige) Ereignisse. Die Folgen können unmittelbar und schwerwiegend sein.
Der Ausfall einer unterbrechungsfreien Stromversorgung (USV) ist Ursache Nr. 1 von großen Stromausfälle. Obertöne kann eine USV und die daran angeschlossenen elektrischen Geräte beschädigen.
Eine schlechte Stromqualität kann folgende Ursachen haben:
Prozessorfehler, Speicherinstabilität und Speichersystemfehler, die den Datenzugriff unterbrechen und Ergebnisse verfälschen
Unzuverlässige, nicht wiederholbare Trainingsergebnisse, Latenzspitzen und Timeouts, die die Integrität von Modell und Algorithmus beeinträchtigen
Knotenausfälle, die große KI-Workloads beeinträchtigen, die auf mehreren Servern ausgeführt werden
Stromausfälle, die Systeme zurücksetzen oder aktive Sitzungen beenden
Überhitzte Netzteile oder Konverter in hochdichten KI-Racks
Systemdrosselung, die thermische Abschaltungen einleitet, um Komponenten zu schützen
Transformatorausfall, der besonders kostspielig sein kann, da er Ausfallzeiten verursacht; die aktuelle Lieferzeit für neue Transformatoren kann zwei bis vier Jahre — ein Risiko auch für den Betrieb redundanter Systeme
Das Netz wurde nicht dafür gebaut
Stromnetze wurden so konzipiert, dass sie typische Angebots- und Nachfragezyklen bewältigen, Spitzen und Täler ausgleichen und sich an Unregelmäßigkeiten anpassen. In den meisten Fällen gelingt ihnen dies gut, obwohl die Umwandlung von Energie in nutzbaren Strom und dessen zuverlässige Bereitstellung eine komplexe Aufgabe ist.
Ein Großteil der weltweiten Infrastruktur wurde jedoch in den 1960er und 1970er Jahren gebaut, als der Verbrauch noch besser vorhersehbar und steuerbar war. Die für diese Zeit typischen Glühlampen, Wechselstrommotoren und analogen Geräte erzeugten lineare Stromlasten, die die Stromqualität nicht beeinträchtigten. Der von ihnen aufgenommene Strom ist proportional zur angelegten Spannung.
Moderne digitale Umgebungen sind eine andere Geschichte. Server, LED-Beleuchtung und HLK-Anlagen mit variabler Geschwindigkeit erzeugen beispielsweise nichtlineare, spitzenartige Lasten, die ein anspruchsvolleres Stromqualitätsmanagement erfordern. Im Gegensatz zu den täglichen Spitzen und saisonalen Charakteristika der Vergangenheit können Spitzen aufgrund der variablen Anforderungen von KI-Rechenzentren, des Kryptowährungs-Minings und des Trends zur „Elektrifizierung von allem“ jederzeit auftreten.
Darüber hinaus ist das Netz selbst heute den Launen erneuerbarer Energiequellen wie Sonne und Wind ausgesetzt, die weit weniger vorhersehbar sind als fossile Brennstoffe oder Wasserkraft. Das System ist deutlich unsicherer. Traditionelle Planungsrahmen für Versorgungsunternehmen wurden nicht unter Berücksichtigung all dieser Faktoren entwickelt.
Obwohl nur 14% Rechenzentrumsausfälle als schwerwiegend oder schwerwiegend eingestuft werden, bleiben sie teuer. In Bezug auf direkte, Opportunitäts- und Reputationskosten 70% aller Rechenzentrumsausfälle kosten $100.000 oder mehr, mit 25% im Bereich von über 1 TP35T und mehr.
Das Rechenzentrum vs. die gemeinsam genutzte Ressource
Wenn es um den Stromverbrauch von Rechenzentren im KI-Zeitalter geht, denken Sie einmal so: Jedes Mal, wenn Sie einen Schalter umlegen, wird der Energiefluss unterbrochen. An. Aus. An. Aus.
Im Grunde ist das die Aufgabe eines Mikrochips. Die heutigen fortschrittlichen Versionen schalten den Strom jedoch Milliarden Mal pro Sekunde ein und aus und verbrauchen dabei enorm viel Strom. Wenn man bedenkt, dass in einem einzigen Hyperscale-Rechenzentrum Millionen von GPUs, CPUs, NPUs und TPUs zum Einsatz kommen können, wird deutlich, mit welcher Herausforderung die Versorgungsunternehmen konfrontiert sind.
Chip
Steht für
Wofür es verwendet wird
Strombedarf
CPU
Zentraleinheit
Allzweck-Computing, das Betriebssysteme und Anwendungen ausführt
Mittel
Grafikkarte
Grafikprozessor
Ursprünglich für Grafiken, wird es heute häufig für die parallele Verarbeitung in KI, Spielen und Simulationen verwendet
Hoch
NPU
Neuronale Verarbeitungseinheit
Beschleunigt KI-Aufgaben wie Bilderkennung und Sprachverarbeitung; wird häufig in Telefonen und Edge-Geräten verwendet
Niedrig bis mittel
TPU
Tensor-Verarbeitungseinheit
Spezialchip von Google für das Hochgeschwindigkeitstraining und die Ausführung von Deep-Learning-Modellen
Hoch
Warum? Weil ein Stromnetz eine gemeinsame Ressource ist. Versorgungsingenieure planen und warten es unter Berücksichtigung dreier technischer Aspekte: Stromqualität, Zuverlässigkeit und das Gleichgewicht von Angebot und Nachfrage. Sie tun dies im Interesse aller, die das Netz nutzen – von Familien und Kleinunternehmern bis hin zu riesigen Technologiezentren und großen Produktionsanlagen. Störungen, die von einem einzelnen verursacht werden, wirken sich auf alle aus.
„Schmutziger“ Strom: Ist das Rechenzentrum der Übeltäter?
Kurze Antwort: Ja, manchmal. Im Allgemeinen folgt die Spannung einer rollenden Welle, die durch gleichmäßige, periodische Schwingungen gekennzeichnet ist – eine Sinuswelle, wie sie durch die grüne Linie in Abbildung 1 dargestellt wird. Die Mitte der 1990er Jahre eingeführten internationalen Standards für stationäre Lasten, die Oberschwingungsströme, Spannungsflimmern und andere Faktoren regeln, haben sich für Rechenzentrumsbetreiber als nützlich erwiesen. Einige haben sogar zusätzliche, strengere Standards für ihre eigenen Anlagen festgelegt.
Intel stellte 1971 den ersten allgemeinen Mikroprozessor vor, der nur 0,500 W Strom verbrauchte. Heute NVIDIAs Blackwell B200 GPU verbraucht bis zu 1.200 W.
KI-Modelle verursachen jedoch massive, plötzliche Anstiege des Stromverbrauchs, wodurch der „weiße Raum“ in einem Rechenzentrum – der Raum, in dem IT-Geräte wie Server, Speicher und Netzwerkgeräte untergebracht sind – zur Quelle von Verzerrungen wird. Die schnelle, ungleichmäßige Stromaufnahme erzeugt Oberschwingungen, die die Spannungswelle (die blauen und gelben Linien) verzerren.
Es ist, als würde man ständig Kieselsteine unterschiedlicher Größe in einen kleinen Teich werfen und zusehen, wie die Wellen aufeinanderprallen und sich verzerren, wenn sie vom Ufer zurückprallen. Die Hochfrequenzschaltung, die in Servern zur Spannungsregulierung verwendet wird, trägt zusätzlich zu elektrischem Rauschen bei. Und extreme Wetterereignisse wie Hitzewellen können Oberschwingungen zusätzlich verstärken, da Frequenzumrichter (VFDs) die Frequenz und Spannung der Stromversorgung der Kühllüfter im „Graubereich“ des Rechenzentrums anpassen, in dem sich Stromverteilung, Kühlsysteme und Generatoren befinden. Um es mit einem Sprichwort zu sagen: „Wir haben den Feind gesehen, und das sind wir.“
Wird das gesamte Chaos nicht ausreichend gefiltert, kann es in das Stromnetz zurückfließen und nicht nur die Stromversorgung des Rechenzentrums, sondern auch die aller anderen Netznutzer stören. Probleme mit der Stromqualität können empfindliche Geräte in Krankenhäusern, Fabriken, Telekommunikationsnetzen und anderswo beschädigen. Transformatoren können ausfallen und ganze Bereiche vom Stromnetz trennen.
„Schmutziger“ Strom mit Oberschwingungen, Spannungsverzerrungen, Transienten, Ungleichgewichten und anderen Unregelmäßigkeiten erhöht zudem den Energieverlust, da Stromerzeugung und -übertragung weniger effizient werden. Da Oberschwingungen die Wärmeentwicklung in elektrischen Geräten erhöhen, wirken sich Kaskadeneffekte erheblich auf die Energieeffizienz (PUE) von Rechenzentren aus: Der Energieverlust steigt, die Energieeffizienz sinkt, der Bedarf an zusätzlicher Kühlung steigt und der Stromverbrauch sprunghaft an.
Abbildung 1. Harmonische Verzerrung.
Echte Beispiele – und eine neue Lösung für Subharmonische
Während KI-zentrierte Rechenzentren noch in der Minderheit sind, prognostiziert McKinsey and Company, dass bis 2030 etwa 70 Prozent der neuen Rechenzentrumskapazität wird für die Unterstützung fortgeschrittener KI-Workloads ausgelegt sein. Außerdem 74 Prozent der Colocation-Anbieter Laut einer Umfrage des Uptime Institute investieren Unternehmen bereits in Infrastruktur-Upgrades, um den KI-Anforderungen ihrer Kunden gerecht zu werden. Die Nachfrage nach KI- und HPC-Anwendungen eröffnet neue Möglichkeiten, zwingt Rechenzentrumsbetreiber aber auch dazu, angesichts neuer Herausforderungen eine Pause einzulegen.
So teilte uns beispielsweise ein Hyperscaler mit, dass der Ausbau seines Rechenzentrums im Umkreis von 320 Kilometern zu Stromausfällen führen könne. Zum Vergleich: Wäre das Rechenzentrum in Paris gestanden, wäre es sogar in Brüssel und den Außenbezirken Londons zu spüren gewesen [Abbildung 2]. Ein anderer Anbieter erklärte, er werde in diesem Jahr genügend Generatoren kaufen, um Chicago mit 2,7 Millionen Einwohnern mit Strom zu versorgen.
Wir arbeiten mit unseren Hyperscaler-Kunden zusammen, um Lösungen zu entwickeln, die viele der Herausforderungen des KI/HPC-Computings bewältigen. Eine dieser Lösungen ist unser bahnbrechendes Kapazitives Energiespeichersystem (CESS)Diese neue Technologie unterstützt und gleicht Stromversorgungen bei großen Leistungstransienten (Spannungs- oder Stromstößen) aus, die durch plötzliche Änderungen der elektrischen Last verursacht werden.
Abbildung 2. Ein Radius von 200 Meilen um Paris, Frankreich.
Bei Tests stellten wir fest, dass Oberschwingungsprobleme bei KI-Workloads zwar durch verschiedene Ansätze gemildert werden können, Subharmonische jedoch erhebliche Probleme verursachen – nicht aufgrund des Stromsystems, sondern weil die Lastwellenform durch die Stromversorgung reflektiert wird. Subharmonische sind Schwingungen mit Frequenzen, die einen Bruchteil der Grundfrequenz ausmachen, und werden durch Lastpulse verstärkt. Das mag zwar harmlos klingen, aber Subharmonische können nicht nur die Stromqualität beeinträchtigen und Probleme mit lokalen Generatoren verursachen, sondern auch DC/DC-Wandler destabilisieren, Überhitzung verursachen und zu vorzeitigen Geräteausfällen führen – und Stromversorgungslösungen wie aktive Oberschwingungsfilter, Oberschwingungsminderungstransformatoren und USV-Systeme lösen diese Probleme nicht.
Abbildung 3. Analyse der Oberschwingungen der Eingangsleistung – 0,1 Hz Impuls/Einschaltdauer = 20%.
Flex CESS wirkt den Subharmonischen entgegen, ohne den Strom- und Kühlungsbedarf zu erhöhen oder die Lebensdauer der Chips zu verkürzen, auf denen die KI-/HPC-Workloads laufen [Abbildung 3]. Dies löst nicht nur die eingangs erwähnten Probleme mit der Stromqualität und -zuverlässigkeit im Rechenzentrum, sondern verhindert auch, dass die Subharmonischen das Stromnetz selbst negativ beeinflussen.
Flex arbeitet außerdem mit Comsys zusammen und nutzt dessen ADF-Portfolio an aktiven dynamischen Lösungen, um die Stromversorgung von Rechenzentren zu überwachen und elektrische Unvollkommenheiten tausende Male pro Sekunde auszugleichen, um Spannungsstörungen zu reduzieren und das Netz zu stabilisieren.
Aufräumen zum Hochfahren
Betreiber, die KI/HPC-Workloads ausführen, müssen Wege finden, dies zu tun, ohne die Stromversorgung für alle anderen zu destabilisieren. Versorgungsunternehmen aktualisieren ihre Verbindungsregeln, da die Auslastung der Rechenzentren zunimmt. Einige verlangen sogar die Vorlage validierter LastmodelleDie US-amerikanische Federal Energy Regulatory Commission nimmt genau unter die Lupe Co-Location-Vereinbarungen zur direkten Stromversorgung.
Angesichts der zunehmenden Rechenleistung und der wachsenden Zahl von Rechenzentren gilt: Vorsicht ist besser als Nachsicht. Generell ist das Stromnetz die Empfängerseite von schmutzigem Strom. Ist die Netzinfrastruktur veraltet oder überlastet, können Störungen auf die Quelle und andere Nutzer zurückwirken. Dies stellt nicht nur ein finanzielles und betriebliches Risiko dar, sondern auch ein Reputationsrisiko.
Es liegt im Interesse der Rechenzentrumsbetreiber, ihren Teil zur Bereinigung beizutragen, indem sie:
Beratung zu Oberschwingungen vor der Systementwicklung, um Probleme im Vorfeld zu minimieren und eine flexible Strategie zu entwickeln, die Erweiterungen und Upgrades problemlos ermöglicht
Berücksichtigung nicht nur der Oberschwingungen, sondern auch der Subharmonischen – und deren Minderung mit Lösungen wie dem Flex CESS
Einsatz aktiver, „intelligenter“ Oberwellenfilter, die den elektrischen Strom ständig überwachen und bei Erkennung von Oberwellen Gegensignale einspeisen, um zu verhindern, dass diese ins Netz gelangen
Einsatz von Leistungsfaktorkorrekturgeräten wie Kondensatorbänken oder dynamischen Kompensationssystemen, die elektrische „Verschüttungen“ reduzieren und elektrische Systeme effizienter machen
Installation von Trenntransformatoren zur Begrenzung von Rauschen und Oberwellen im Rechenzentrum
Zusammenarbeit mit Versorgungsunternehmen zur Prognose und Glättung großer KI-Lasten durch Smart-Grid-Koordination
Einhaltung von Standards für die Netzanbindung wie IEEE 519 (USA) und EN 50160 (EMEA), die Grenzwerte für harmonische Verzerrungen festlegen – Standards, deren Nichteinhaltung zu Geldstrafen führen kann – und der IEC 61000-Reihe, die die EMI-Emission und den Empfang (elektromechanische Interferenz) abdeckt
Herausforderungen auf Systemebene mit Lösungen auf Systemebene lösen
Hohe Stromqualität ist ein unbesungener Held – wenn sie gut ist, funktioniert alles einfach. Das Licht geht an. Die Maschinen laufen. Doch sobald die Stromqualität nachlässt, häufen sich die Folgen. Sie können sich heimlich zeigen, wie etwa durch Oberschwingungen, die unentdeckt bleiben, aber scheinbar mysteriöse Geräteausfälle weit entfernt von der Quelle verursachen. Sie können sich durch einen Spannungsabfall oder einen durchgebrannten Transformator deutlich bemerkbar machen und den Betrieb sofort (und manchmal unwiderruflich) unterbrechen. Sie können sich als gut informiertes, proaktives Versorgungsunternehmen zeigen, das versucht, die Bedürfnisse aller Beteiligten in Einklang zu bringen.
Die Stromqualität ist ein systemweites Problem, das systemweite Lösungen erfordert. Flex arbeitet eng mit führenden Chipherstellern und Rechenzentrumskunden zusammen, um erwartete Herausforderungen der Stromqualität proaktiv im Einklang mit Produkt-Roadmaps und sich ändernden Architekturen zu bewältigen. Mit einer umfassenden Palette an kritischen und eingebetteten Stromversorgungsprodukten sowie Direct-to-Chip-Kühllösungen erstreckt sich unser einzigartiger Blickwinkel vom Netz bis zum Chip und bietet unseren Kunden wertvolle Einblicke, die umfassende Lösungen für komplexe Probleme ermöglichen.
Wir verwenden auf dieser Website Cookies, um Ihr Benutzererlebnis zu verbessern. Erfahren Sie mehr über unsere Verwendung von Cookies und Ihre Wahlmöglichkeiten Hier. Durch die Interaktion mit dieser Seite erklären Sie sich damit einverstanden, dass wir Cookies setzen. Zurückweisen