Si usted es operador de un centro de datos y busca ampliar su capacidad, sabe perfectamente que asegurar el acceso a la red eléctrica es su prioridad. Sin electricidad, no hay centro de datos, como dicen. Pero la extraordinaria demanda que la IA y la computación de alto rendimiento (HPC) imponen a la red eléctrica plantea otra preocupación que rápidamente asciende en la lista: calidad de la energíaSi bien los centros de datos que ejecutan cargas de trabajo tradicionales han resuelto en gran medida el problema de la calidad de la energía, las aplicaciones de IA/HPC plantean nuevos desafíos a medida que cambia la naturaleza de la computación.
Los centros de datos dependen de un suministro eléctrico constante e ininterrumpido para garantizar su disponibilidad, proteger los equipos y mantener la eficiencia operativa. Garantizar una alta calidad de la energía es responsabilidad tanto de la compañía eléctrica como del operador del centro de datos. En este blog, analizaremos algunos de los factores que influyen en la calidad de la energía y qué pueden hacer los operadores de centros de datos para proteger sus instalaciones, reducir el riesgo de sanciones económicas y ser buenos vecinos para todos los que comparten la red en la era de la IA.
Características y consecuencias de la calidad de la energía
La calidad de la energía se refiere a la confiabilidad, estabilidad y pureza de la electricidad suministrada al centro de datos. El procesamiento y la inferencia de IA, que requieren un uso intensivo de recursos computacionales y son sensibles al tiempo, son particularmente vulnerables a anomalías de energía, como fluctuaciones de voltaje, desviaciones de frecuencia, armónicos, cortes de suministro y eventos transitorios (puntuales). Las consecuencias pueden ser inmediatas y graves.
La falla del sistema de alimentación ininterrumpida (UPS) es la Causa número 1 de mayor cortes de energía relacionados. Armonía puede dañar un UPS y el equipo eléctrico conectado a él.
Errores del procesador, inestabilidad de la memoria y fallas del sistema de almacenamiento que interrumpen el acceso a los datos y corrompen los resultados.
Resultados de entrenamiento poco confiables e irrepetibles, picos de latencia y tiempos de espera que afectan la integridad del modelo y del algoritmo
Fallas de nodos que afectan grandes cargas de trabajo de IA que se ejecutan en varios servidores
Caídas de tensión que reinician los sistemas o cancelan sesiones activas
Fuentes de alimentación o convertidores sobrecalentados en racks de IA de alta densidad
Limitación del sistema que inicia apagados térmicos para proteger los componentes
Fallo del transformador, que puede ser especialmente costoso en términos de tiempo de inactividad; el plazo de entrega actual para nuevos transformadores puede ser de dos a cuatro años — un riesgo incluso para quienes operan sistemas redundantes
La red no fue construida para esto
Las redes eléctricas se construyeron para gestionar los ciclos típicos de oferta y demanda, suavizando los picos y valles y adaptándose a las irregularidades. En general, lo hacen bien a pesar de la complejidad inherente de convertir la energía en electricidad utilizable y distribuirla de forma fiable.
Pero gran parte de la infraestructura mundial se construyó en las décadas de 1960 y 1970, cuando el uso era más fácil de predecir y gestionar. Las luces incandescentes, los motores de CA y los dispositivos analógicos típicos de esa época producen cargas de energía lineales que no distorsionan la calidad de la energía. La corriente eléctrica que consumen es proporcional al voltaje aplicado.
Los entornos digitales modernos son otra historia. Los servidores, la iluminación LED y las unidades de climatización de velocidad variable, por ejemplo, producen cargas no lineales y con picos que requieren una gestión de la calidad de la energía más sofisticada. A diferencia de los picos diarios y las características estacionales del pasado, los picos pueden ocurrir en cualquier momento debido a la demanda variable de los centros de datos de IA, la minería de criptomonedas y la tendencia de la "electrificación de todo".
Además, la propia red eléctrica está ahora sujeta a las fluctuaciones de las fuentes de energía renovables, como la solar y la eólica, que son mucho menos predecibles que los combustibles fósiles o la hidroeléctrica. Existe mucha más incertidumbre en el sistema. Los marcos tradicionales de planificación de las empresas de servicios públicos no se diseñaron teniendo en cuenta todo esto.
Aunque sólo 14% de interrupciones del centro de datos se clasifican como graves o severos, siguen siendo costosos. En términos de costos directos, de oportunidad y de reputación, El 70% de todas las interrupciones del centro de datos cuestan $100.000 o más, con 25% en el rango de $1 millón y más.
En cuanto a la electricidad que consumen los centros de datos de la era de la IA, piénselo así: cada vez que se activa un interruptor, se interrumpe el flujo de energía. Encendido. Apagado. Encendido. Apagado.
Eso es básicamente lo que hace un microchip; solo que las versiones avanzadas actuales activan y desactivan la corriente miles de millones de veces por segundo, consumiendo una cantidad extraordinaria de energía al hacerlo. Si consideramos que un solo centro de datos a hiperescala puede implementar millones de GPU, CPU, NPU y TPU, vemos a qué se enfrentan las empresas de servicios públicos.
Chip
Significa
Para qué se utiliza
Necesidades de energía
UPC
Unidad central de procesamiento
Computación de propósito general que ejecuta sistemas operativos y aplicaciones
Medio
GPU
Unidad de procesamiento de gráficos
Originalmente para gráficos, ahora ampliamente utilizado para procesamiento paralelo en IA, juegos y simulaciones.
Alto
Unidad Nacional de Procesamiento
Unidad de procesamiento neuronal
Acelera tareas de IA como el reconocimiento de imágenes y el procesamiento de voz; se utiliza a menudo en teléfonos y dispositivos periféricos.
Bajo a medio
TPU
Unidad de procesamiento de tensores
Chip especializado de Google para el entrenamiento y ejecución de alta velocidad de modelos de aprendizaje profundo
Alto
¿Por qué? Porque una red eléctrica es un recurso compartido. Los ingenieros de servicios públicos la diseñan y mantienen priorizando tres consideraciones técnicas: la calidad de la energía, la confiabilidad y el equilibrio entre la oferta y la demanda. Lo hacen en beneficio de todos los usuarios, desde familias y pequeños negocios hasta grandes campus tecnológicos y grandes plantas de fabricación. Las interrupciones causadas por una causa afectan a todos.
Energía “sucia”: ¿es el centro de datos el culpable?
Respuesta corta: Sí, a veces. Generalmente, el voltaje sigue una onda continua caracterizada por oscilaciones suaves y periódicas: una onda sinusoidal, como se muestra con la línea verde en la Figura 1. Las normas internacionales para cargas en estado estacionario, establecidas a mediados de la década de 1990 y que regulan las corrientes armónicas, el flicker de voltaje y otros factores, han sido muy útiles para los operadores de centros de datos. Algunos incluso han establecido normas adicionales más estrictas para sus propias instalaciones.
Intel Introdujo el primer microprocesador general en 1971, que consumía tan solo 0,500 W de energía. Hoy en día, GPU Blackwell B200 de NVIDIA consume hasta 1.200 W.
Pero los modelos de IA provocan picos repentinos y masivos en el consumo de energía, lo que convierte el "espacio en blanco" dentro de un centro de datos (la sala que alberga equipos informáticos como servidores, almacenamiento y redes) en una fuente de distorsión. El consumo de energía en ráfagas rápidas e irregulares genera armónicos que distorsionan la onda de voltaje (las líneas azul y amarilla).
Es como lanzar continuamente piedras de diferentes tamaños a un pequeño estanque y ver cómo las ondas chocan y se distorsionan al rebotar en la orilla. La conmutación de alta frecuencia que se utiliza en los servidores para regular el voltaje añade aún más ruido eléctrico. Además, los fenómenos meteorológicos extremos, como las olas de calor, pueden amplificar aún más los armónicos, ya que los variadores de frecuencia (VFD) ajustan la frecuencia y el voltaje de la energía eléctrica suministrada a los ventiladores de refrigeración ubicados en el "espacio gris" del centro de datos, donde se encuentran la distribución eléctrica, los sistemas de refrigeración y los generadores. Como dice una frase: "Hemos visto al enemigo, y somos nosotros".
Si no se filtra adecuadamente, todo este caos puede retroalimentar la red eléctrica, perturbando no solo el suministro eléctrico del centro de datos, sino también el de todos los usuarios de la red eléctrica. Los problemas de calidad de la energía pueden dañar equipos sensibles en hospitales, fábricas, redes de telecomunicaciones y otros lugares. Los transformadores pueden fallar, provocando la falta de suministro eléctrico en zonas enteras.
La energía contaminada, repleta de armónicos, distorsiones de voltaje, transitorios, desequilibrios y otras irregularidades, también aumenta la pérdida de energía, ya que la generación y transmisión de energía se vuelven menos eficientes. Dado que los armónicos aumentan el calor en los equipos eléctricos, los efectos en cascada impactan significativamente la eficiencia del uso de energía (PUE) del centro de datos a medida que aumenta la pérdida de energía, disminuye la eficiencia energética, aumenta la necesidad de refrigeración adicional y se dispara el consumo de energía.
Figura 1. Distorsión armónica.
Ejemplos reales y una nueva solución para subarmónicos
Si bien los centros de datos centrados en IA aún son una minoría, McKinsey and Company proyecta que para 2030, aproximadamente 70 por ciento La nueva capacidad del centro de datos se diseñará para soportar cargas de trabajo de IA avanzadas. Además, El 74 por ciento de los proveedores de coubicación Según una encuesta del Uptime Institute, ya están invirtiendo en mejoras de infraestructura para satisfacer las necesidades de IA de sus clientes. La demanda de aplicaciones de IA y HPC genera oportunidades, pero también obliga a los operadores de centros de datos a pausar la actividad ante la aparición de nuevos desafíos.
Por ejemplo, un hiperescalador nos comentó que la construcción de su centro de datos podría causar interrupciones del suministro eléctrico en un radio de 320 kilómetros. Para ponerlo en perspectiva, si ese centro de datos hubiera estado ubicado en París, su presencia se habría sentido hasta en Bruselas y las afueras de Londres [Figura 2]. Otro afirmó que este año comprarían suficientes generadores para abastecer a la ciudad de Chicago, con una población de 2,7 millones de personas.
Hemos estado trabajando con nuestros clientes hiperescaladores para desarrollar soluciones que aborden muchos de los desafíos que surgen de la computación IA/HPC. Una de estas soluciones es nuestra innovadora Sistema de almacenamiento de energía capacitivo (CESS)Esta nueva tecnología soporta y equilibra las fuentes de alimentación durante grandes transitorios de potencia (sobretensiones o sobretensiones de corriente) causados por cambios repentinos en las cargas eléctricas.
Figura 2. Un radio de 200 millas alrededor de París, Francia.
Durante las pruebas, descubrimos que, si bien los problemas de armónicos de las cargas de trabajo de IA se pueden mitigar mediante diversos enfoques, existen problemas significativos con los subarmónicos, no como resultado del sistema de alimentación, sino a medida que la forma de onda de la carga se refleja en la fuente de alimentación. Los subarmónicos son oscilaciones a frecuencias que son una fracción de la frecuencia fundamental (base), y la pulsación de la carga los exacerba. Si bien esto puede parecer inofensivo, los subarmónicos no solo pueden degradar la calidad de la energía y generar problemas con los generadores locales, sino también desestabilizar los convertidores CC/CC, causar sobrecalentamiento y provocar fallos prematuros en los equipos. Las soluciones de suministro de energía, como los filtros armónicos activos, los transformadores de mitigación de armónicos y los sistemas SAI, no los resuelven.
Figura 3. Análisis de armónicos de potencia de entrada: pulso de 0,1 Hz/trabajo = 20%.
El CESS Flex contrarresta los subarmónicos sin aumentar los requisitos de potencia y refrigeración ni acortar la vida útil de los chips que ejecutan las cargas de trabajo de IA/HPC [Figura 3]. Esto no solo resuelve los problemas de calidad y fiabilidad de la energía dentro del centro de datos, como los mencionados al principio, sino que también evita que los subarmónicos afecten negativamente a la propia red eléctrica.
Flex también se asocia con Comsys, utilizando su cartera ADF de soluciones dinámicas activas para monitorear el suministro de energía del centro de datos y compensar imperfecciones eléctricas miles de veces por segundo para reducir las perturbaciones de voltaje y estabilizar la red.
Limpiar para aumentar la producción
Los operadores que ejecutan cargas de trabajo de IA/HPC deben encontrar maneras de hacerlo sin desestabilizar el suministro eléctrico de todos los demás. Las empresas de servicios públicos están actualizando sus reglas de interconexión a medida que aumenta la carga de los centros de datos, y algunas incluso exigen... Presentación de modelos de carga validadosLa Comisión Federal Reguladora de Energía de Estados Unidos está examinando de cerca acuerdos de ubicación conjunta para el suministro directo de energía.
Con la intensificación de la computación y la proliferación de centros de datos, es fundamental prevenir. En general, la red eléctrica es la principal receptora de energía contaminante. Si la infraestructura de la red está obsoleta o sobrecargada, puede propagar las perturbaciones a la fuente de origen y a otros usuarios, lo que no solo representa un riesgo financiero y operativo, sino también reputacional.
A los operadores de centros de datos les conviene hacer su parte para limpiarlos mediante:
Asesoramiento sobre armónicos antes del diseño del sistema para mitigar problemas desde el principio y crear una estrategia ágil que se adapte fácilmente a la expansión y las actualizaciones.
Considerando no solo los armónicos, sino también los subarmónicos, y mitigándolos con soluciones como el CESS Flex
Implementar filtros armónicos activos e “inteligentes” que monitorean constantemente la corriente eléctrica e inyectan contraseñales cuando se detectan armónicos para evitar que se filtren a la red.
Utilizando equipos de corrección del factor de potencia, como bancos de condensadores o sistemas de compensación dinámica, que reducen el “derrame” eléctrico y hacen que los sistemas eléctricos sean más eficientes.
Instalación de transformadores de aislamiento que restringen el ruido y los armónicos dentro del centro de datos
Colaborar con las empresas de servicios públicos para pronosticar y suavizar grandes cargas de IA a través de la coordinación de redes inteligentes
Adherirse a los estándares de interconexión de servicios públicos como IEEE 519 (EE. UU.) y EN 50160 (EMEA) que establecen límites en los niveles de distorsión armónica (estándares que pueden resultar en sanciones financieras si no se cumplen) y la serie IEC 61000 que cubre la emisión y recepción de EMI (interferencia electromecánica).
Resolver desafíos a nivel de sistema con soluciones a nivel de sistema
La alta calidad de la energía es un héroe anónimo: cuando es buena, todo funciona. Las luces se encienden. Las máquinas funcionan. Pero desde el momento en que la calidad de la energía comienza a deteriorarse, las consecuencias se acumulan. Pueden presentarse de forma sigilosa, como armónicos que pasan desapercibidos, pero que causan fallos de equipos aparentemente misteriosos lejos de la fuente. Pueden hacerse presentes a gritos mediante una caída de tensión o un transformador fundido que interrumpe el proceso de inmediato (y a veces irrevocablemente). Pueden manifestarse como una empresa de servicios públicos bien informada y proactiva que busca equilibrar las necesidades de todas sus partes interesadas.
La calidad de la energía es un problema a nivel de sistema que requiere soluciones a nivel de sistema. Flex colabora estrechamente con empresas líderes en chips y clientes de centros de datos para abordar proactivamente los desafíos previstos en materia de calidad de la energía, en consonancia con las hojas de ruta de los productos y las arquitecturas cambiantes. Con una gama completa de productos de energía críticos e integrados, y soluciones de refrigeración directa al chip, nuestra ventaja competitiva abarca desde la red hasta el chip, ofreciendo a nuestros clientes información valiosa que fundamenta soluciones integrales para problemas complejos.
Utilizamos cookies en este sitio para mejorar su experiencia de usuario. Puede obtener más información sobre nuestro uso de cookies y sus opciones. aquí. Al interactuar con esta página, usted nos da su consentimiento para que establezcamos cookies. Despedir