Als das ‘Uptime Institute’ im Jahr 2020 152 Rechenzentrumsleiter [1] nach der Hauptursache des letzten größeren Ausfalls in ihrem Unternehmen befragte, gaben 371 von ihnen ‘Strom’ an. Das Uptime Institute berichtete außerdem, dass 161 von 146 befragten Leitern die Kosten des Ausfalls auf über 1 Million Pfund schätzten. In der Vergangenheit gab es sogar Ausfälle mit Kosten von über 100 Millionen Pfund.
Angesichts der zunehmenden Abhängigkeit von der Cloud – von sozialen Medien bis hin zum Online-Banking – ist es wichtiger denn je, ungeplante Ausfälle zu vermeiden. Natürlich gibt es etablierte Verfahren, um dies zu erreichen, typischerweise durch redundante Funktionen und insbesondere durch redundante Stromversorgungen, die andernfalls einen Single Point of Failure darstellen können. Entscheidend ist jedoch, den Grad der Redundanz, die Zuverlässigkeit der verbleibenden Geräte und die maximal zulässige Reparatur- oder Austauschzeit defekter Komponenten zu kennen. Ein Backup mit hoher Ausfallrate ist nur bedingt nützlich, wenn die Redundanz nicht schnell wiederhergestellt werden kann.
Redundanz ist effektiv – aber nur, wenn Sie sie überwachen
Es ist eine Grundregel der Redundanz, dass man wissen muss, ob die redundante Einheit nach einem Ausfall anspringt. Andernfalls bemerkt man über einen unbestimmten Zeitraum nicht, dass ein weiterer einzelner Fehler das gesamte System lahmlegen könnte. Daher werden üblicherweise die Stromschienen vor den Schutzdioden überwacht, um Informationen über ihren Zustand zu erhalten und so Reparaturen oder einen Austausch zu veranlassen. Eine weitere Grundregel ist, dass eine aggregierte Überwachung an sich keine Gefahr darstellt, da sie keine gemeinsame Verbindung zu redundanten Elementen darstellt, die einen Ausfall aller überwachten Geräte verursachen könnte, beispielsweise durch das Einspeisen einer Hochspannung nach einem Isolationsfehler.
Viele Stromrichter in kritischen Bereichen verfügen über ein ‘DC OK’- oder ‘Power Good’-Signal, das signalisiert, wenn ein Teil eines redundanten Stromversorgungssystems die Spezifikationen nicht mehr erfüllt. Moderne Stromrichter bieten jedoch oft auch digitale Steuerungs- und Überwachungsfunktionen, die nicht nur bei einem Fehler einen Alarm auslösen, sondern auch eine Momentaufnahme des Stromrichterzustands zum Zeitpunkt des Fehlers liefern. Diese Momentaufnahme kann den aktuellen Ausgangsstrom und die Ausgangsspannung sowie – kritisch – die Temperatur des Bauteils umfassen. Die Funktion ähnelt nun einem Ereignisdatenschreiber (Blackbox). Die Informationen können typischerweise über eine Schnittstelle (I) abgefragt werden.2C-Schnittstelle über PMBus® Befehle.
Eine weitere Verbesserung besteht darin, die Daten im nichtflüchtigen Speicher (NVM) des Umrichters zu speichern, sodass Diagnosedaten selbst bei einem Totalschaden des Antriebsstrangs möglicherweise noch wiederhergestellt werden können. Dieses Prinzip gilt auch für nicht redundante Systeme, bei denen ein plötzlicher Funktionsausfall durch einen ausgefallenen Umrichter oder eine defekte Last kurzfristig tolerierbar sein mag, es aber dennoch hilfreich wäre, die Umstände des Ausfalls zu kennen. Wenn die Last ausgefallen ist und dies auf irgendeine Weise signalisiert wurde, könnten die Strom- und Temperaturüberwachung des Umrichters ebenfalls Hinweise auf die Ursache liefern.
Um dies zu erreichen, kann die Zeitstempelung der aufgezeichneten Daten eines Leistungswandlers genutzt werden, um ein Fehlerprotokoll mit externen Ereignissen zu verknüpfen. Beispielsweise schaltet sich der Wandler bei einem Kurzschluss einer Last ab und kann das Ereignis sowie die Uhrzeit protokollieren, um sie später mit anderen externen Ereignissen zu korrelieren. Ein Beispiel für einen Leistungswandler mit dieser Version der einmalig programmierbaren ‘Black-Box’-Funktionalität sind die Leistungsmodule Flex.‘ BMR350-Serie. Es handelt sich um einen DC/DC-Wandler mit 1200 W Spitzenleistung, Grundplattenkühlung und Viertel-Brick-Gehäuse sowie PMBus.® Schnittstelle, die den Zugriff auf die unter Fehlerbedingungen erfassten Informationen des ‘Ereignisdatenschreibers’ ermöglicht.

Bild: Flex Leistungsmodule BMR350 mit integriertem OTP-Fehlerereignisdatenschreiber
Andere Stromrichter verfügen über kontinuierlich arbeitende Ereignisrekorder.
Eine Erweiterung dieses Ansatzes besteht in der kontinuierlichen Überwachung und Zeitstempelung von ‘Lebenszyklusereignissen’ im Normalbetrieb. Dies können beispielsweise kumulierte Betriebsstunden, ungewöhnliche Strombedarfe, automatische Neustarts nach Überspannungsspitzen oder eine Reihe weiterer Parameter sein. Anhand der Daten lassen sich Trends erkennen, wie etwa ein allmählicher Temperaturanstieg aufgrund verstopfter Lüfterfilter oder ein mit der Zeit abnehmender Wirkungsgrad der Energieumwandlung. Mithilfe dieser Analysen können Verschleißausfälle vorhergesagt und zustandsorientierte Instandhaltung (CBM) implementiert werden. Dabei werden Teile bedarfsgerecht und vor einem Ausfall ausgetauscht, anstatt in willkürlichen, festen Intervallen oder erst im Fehlerfall. Dies spart Arbeits- und Hardwarekosten und maximiert gleichzeitig die Betriebszeit.
Ein Beispiel für einen Leistungswandler mit dieser Fähigkeit, den Ereignisdatenschreiber kontinuierlich zu überschreiben, sind die Flex Leistungsmodule. BMR491. Es handelt sich um einen DC/DC-Wandler mit 2450 W Spitzenleistung, Grundplattenkühlung und Viertel-Brick-Gehäuse sowie PMBus.® Schnittstelle, die erneut den Zugriff auf die Informationen des ‘Ereignisdatenrekorders’ ermöglicht.

Bild: Flex Leistungsmodule BMR491 mit integriertem, wiederbeschreibbarem Lebensereignisdatenschreiber
Das ‘Uptime Institute’ weist darauf hin, dass sich die Hardwarezuverlässigkeit zwar verbessert, die rasante Einführung neuer Rechenzentren und die damit einhergehende Abhängigkeit jedoch weiterhin zu zunehmenden Herausforderungen bei Überwachung, Lebensdauerprognose und Fehlerdiagnose führen. Die ‘Black-Box’-Funktionalität in Stromrichtern soll hier Abhilfe schaffen.
Referenz