Cuando el 'Uptime Institute' encuestó a 152 administradores de centros de datos en 2020 [1] sobre cuál fue la causa principal de la interrupción significativa más reciente de su organización, 37% dijeron 'energía'. El Uptime Institute también informó que 16% de los 146 administradores encuestados en 2020 estimaron el costo de la interrupción en más de $1M. Históricamente, incluso ha habido interrupciones que costaron más de $100M.
Con la creciente dependencia de la nube para todo, desde las redes sociales hasta la banca, evitar interrupciones imprevistas es más importante que nunca. Existen técnicas consolidadas para lograrlo, como la redundancia funcional, especialmente en las fuentes de alimentación, que de otro modo podrían convertirse en un único punto de fallo. Sin embargo, es fundamental conocer el grado de redundancia, la fiabilidad del equipo operativo restante y el tiempo máximo aceptable para reparar o sustituir el equipo averiado. Disponer de un sistema de respaldo con una alta tasa de fallos resulta de poca utilidad si la redundancia no se puede restablecer rápidamente.
La redundancia es efectiva, pero solo si se realiza un seguimiento.
Es una regla básica de redundancia saber si la unidad redundante se ha activado tras un fallo. De lo contrario, se desconocería durante un tiempo indeterminado que un nuevo fallo podría paralizar todo el sistema. Por lo tanto, es habitual monitorizar las líneas de alimentación antes que los diodos de conmutación para obtener información sobre su estado y, de esta forma, determinar si se repararán o sustituirán. Otra regla básica es que la monitorización agregada no representa en sí misma un riesgo al ser una conexión común a elementos redundantes que podrían provocar un fallo en todos los equipos monitorizados, por ejemplo, inyectando un alto voltaje tras un fallo de aislamiento.
Muchos convertidores de potencia en posiciones críticas tendrán una señal de "DC OK" o "Power Good" que puede usarse para indicar que parte de un sistema de alimentación redundante está fuera de especificación. Sin embargo, los convertidores modernos a menudo también tienen cierto grado de control y monitoreo digital, que puede no solo proporcionar una alarma en caso de falla, sino también una "instantánea" de las condiciones del convertidor cuando se registra la falla. Esto puede incluir la corriente y el voltaje de salida reales y, fundamentalmente, la temperatura del componente. La función ahora se vuelve análoga a un registrador de datos de eventos de "caja negra". La información normalmente se puede interrogar a través de una I2Interfaz C mediante PMBus® comandos.
Una mejora adicional consiste en escribir los datos en la memoria no volátil (NVM) del convertidor, de modo que, incluso si su sistema de transmisión sufre daños catastróficos, los datos de diagnóstico puedan recuperarse. Este principio también se aplica a configuraciones no redundantes, donde la pérdida repentina de funcionamiento causada por un convertidor o una carga averiada puede ser tolerable a corto plazo, pero aun así sería útil conocer las condiciones en las que se produjo la falla. Si es la carga la que ha fallado, señalizada de alguna manera, la monitorización de la corriente y, posiblemente, de la temperatura del convertidor de potencia también podría proporcionar una pista sobre lo sucedido.
Para lograr esto, se puede utilizar el "marcado de tiempo" de los datos registrados de un convertidor de potencia para asociar un registro de fallas con eventos externos. Por ejemplo, si una carga sufre un cortocircuito, el convertidor se apagará y podría registrar el evento y la hora para su posterior correlación con algún otro evento externo. Un ejemplo de un convertidor de potencia con esta versión de la funcionalidad de "caja negra" de programación única son los módulos de potencia Flex.‘ Serie BMR350. Se trata de un convertidor CC/CC de cuarto de ladrillo, refrigerado por placa base y con una potencia máxima de 1200 W, con un bus PMBus.® Interfaz que permite acceder a la información del "registrador de datos de eventos" recopilada en condiciones de fallo.

Imagen: Módulo de alimentación Flex BMR350 con registrador de datos de eventos de falla OTP integrado.
Otros convertidores de potencia tienen registradores de eventos que funcionan continuamente.
Una extensión de esto consiste en monitorear y registrar continuamente los eventos que ocurren durante el funcionamiento normal. Esto podría incluir las horas de funcionamiento acumuladas, demandas de corriente inusuales, reinicios automáticos tras una sobretensión transitoria u otros parámetros. Los datos podrían utilizarse para identificar tendencias como el aumento gradual de la temperatura debido a filtros de ventilador obstruidos o la pérdida de eficiencia de conversión de energía con el tiempo. Mediante el análisis, se podrían predecir fallas por desgaste e implementar el Mantenimiento Basado en la Condición (MBC). Este sistema consiste en reemplazar las piezas cuando es necesario y antes de que fallen, en lugar de hacerlo a intervalos fijos arbitrarios o solo cuando se produce una falla. Esto ahorra costos de mano de obra y hardware, a la vez que maximiza el tiempo de actividad.
Un ejemplo de convertidor de potencia con esta capacidad de sobrescribir continuamente el registrador de datos de eventos son los módulos de potencia Flex. BMR491. Se trata de un convertidor CC/CC de cuarto de ladrillo, refrigerado por placa base y con una potencia máxima de 2450 W, con un bus PMBus.® La interfaz permite nuevamente el acceso a la información del "registrador de datos de eventos".

Imagen: Módulo de alimentación Flex BMR491 con registrador de datos de eventos de vida regrabable integrado.
El Uptime Institute señala que la fiabilidad del hardware está mejorando, pero el ritmo de despliegue y la dependencia de los nuevos centros de datos son tales que la monitorización, la predicción de la vida útil y el diagnóstico de fallos siguen siendo una preocupación creciente. La funcionalidad de "caja negra" en los convertidores de potencia promete ser de gran ayuda.
Referencia