Aprovechamiento de la refrigeración líquida en centros de datos de IA

Introducción

Este artículo analiza la necesidad y los beneficios de la refrigeración líquida en centros de datos de IA, centrándose en los desafíos que plantean los servidores de IA de alta potencia y las ventajas de los sistemas de Módulo de Potencia Vertical (VPM). Se abordan diferentes metodologías de refrigeración, comparaciones prácticas de los métodos de refrigeración y sus implicaciones para los convertidores CC/CC asociados.

Cuando un mercado crece de forma explosiva, como el de los servidores de IA, su tamaño potencial es difícil de predecir. Sin embargo, los analistas de Research and Markets estiman que el segmento cuadruplicará su valor, superando los 1.350.500 millones de dólares estadounidenses para 2029.^[1]. Aunque actualmente representan solo entre 10 y 151 TP34T del mercado total de centros de datos, los servidores orientados a aplicaciones de IA consumen mucha energía. Las GPU más recientes utilizadas para servidores de IA, como la Nvidia GB200 (que es una combinación de dos GPU Blackwell y una CPU Grace), disipan más de 1 kW de forma continua y más de 2,5 kW de pico. Esto supone un salto significativo con respecto a la GPU Nvidia Core H100 de la generación anterior, que funcionaba a 700 W y con solo 201 TP34T de rendimiento de procesamiento.

Los procesadores necesitan el suministro de líneas de alimentación locales desde convertidores CC/CC, que deben colocarse lo más cerca posible para evitar caídas de tensión estáticas y dinámicas en las conexiones. Sin embargo, a los niveles de potencia elevados que se observan en los servidores de IA, los convertidores colocados lateralmente alrededor de los procesadores no están lo suficientemente cerca y, además, bloquean el acceso al enrutamiento de señales. Un enfoque relativamente nuevo desarrollado por fabricantes de convertidores CC/CC como Flex Power Modules ^[2] Se trata de un módulo de alimentación vertical (VPM) CC/CC ubicado justo debajo del procesador en la parte inferior de la placa de circuito impreso (Figura 1). De esta forma, el convertidor CC/CC multicanal se encuentra en la posición eléctrica óptima para transferir energía con mínimas pérdidas en la red de distribución de energía (PDN).

Figura 1: Suministro de energía vertical a un procesador

En la práctica, un VPM se diseña para una configuración específica de procesador y servidor, ya que su distribución de pines debe coincidir con la del procesador para facilitar el enrutamiento de las pistas de la PCB. Para un rendimiento óptimo, el VPM debe incluirse en el modelado térmico e idealmente refrigerarse con líquido en la parte inferior de la PCB mediante una placa fría. El formato de bajo perfil del dispositivo VPM, con su gran superficie, se adapta bien mecánicamente a la refrigeración líquida directa del procesador mediante una placa fría, que se utilizaría en servidores de IA. Esto contrasta con el enfoque lateral más tradicional para la colocación de convertidores CC/CC, que suelen diseñarse para ocupar un área mínima y requieren refrigeración por aire forzado. Todo esto significa que el VPM se considerará en las primeras etapas de la especificación del sistema y puede incluirse en el diseño de la configuración de refrigeración con placa fría.

La necesidad de refrigeración líquida frente a refrigeración por convección se puede medir mediante la disipación de potencia por centímetro cuadrado de la superficie del procesador, que ronda los 50 W/cm².² siendo un punto de ruptura sugerido, dependiendo del tamaño del rack (Figura 2A bajas densidades de potencia, la refrigeración por aire forzado ha sido la norma, pero los disipadores de calor con aletas son grandes y el aire caliente en el lado de escape podría afectar a otros componentes, perjudicando la fiabilidad. Esto se puede mitigar si el procesador y el disipador se colocan cerca del punto de salida de aire en la carcasa del servidor blade, pero esto supone una limitación indeseable para el diseño de la placa.

Figura 2: Se necesita refrigeración líquida para chips por encima de aproximadamente 50 W/cm².²disipación

Por lo tanto, la refrigeración líquida representa una ventaja técnica a cualquier nivel de potencia, pero no puede ser una simple mejora que se instale sin más. Un sistema óptimo requiere un diseño integral que también tenga en cuenta otros componentes que generan calor, como los convertidores CC/CC que alimentan las líneas de alimentación locales.

métodos de enfriamiento

¿Qué hace que la refrigeración líquida sea tan superior? Entre sus ventajas se incluye una mayor eficiencia en la transferencia de energía térmica, lo que se traduce en un tamaño más reducido, un menor consumo energético del sistema y una reducción de los costes operativos. La refrigeración líquida también elimina la necesidad de algunos ventiladores ruidosos y poco fiables cerca de la carga, aunque sigue siendo necesario un intercambiador de calor centralizado para disipar el calor del fluido. Esto se suele conseguir mediante refrigeración por aire forzado hacia el ambiente o hacia otro circuito de agua, que podría utilizarse, por ejemplo, para la calefacción de una comunidad. Las desventajas de la refrigeración líquida son un mayor coste de instalación, un consiguiente retraso en la recuperación de la inversión y una posible menor disponibilidad del sistema en caso de fallo, dado que la refrigeración líquida está más centralizada que los ventiladores individuales de los servidores.

En la imagen se muestra un sistema de refrigeración líquida híbrido de circuito cerrado. Figura 3, donde el calor se transfiere del procesador a una placa fría con canales de agua. Esta configuración se denomina refrigeración directa al chip (Direct-to-Chip Cooling), y el tamaño de la placa suele ser el mismo que el del dispositivo a refrigerar. De hecho, solo necesita tener el grosor suficiente para alojar los canales. Se trata de una configuración monofásica en la que el refrigerante, normalmente agua, está contenido y permanece en estado líquido de forma continua. Esta técnica ofrece una mejora drástica en la capacidad de disipación de calor en comparación con la refrigeración por aire forzado, como cuantificaremos más adelante, pero se puede obtener un beneficio adicional utilizando un líquido a base de fluorocarbono con una conductividad térmica aproximadamente 10 veces superior. Además, si este se calienta hasta su punto de ebullición, alrededor de 50 °C, en una configuración bifásica, el calor latente de evaporación del fluorocarbono utilizado permite una absorción de calor aproximadamente 100 veces mayor por unidad de volumen de líquido que en una configuración monofásica. Otra ventaja es que el refrigerante dieléctrico daña mucho menos los componentes que el agua en caso de fuga, pero una configuración bifásica es relativamente más costosa de implementar. En la práctica, el material de la interfaz térmica entre el procesador y la placa fría se convierte en un factor limitante, lo que hace que la configuración monofásica sea una buena solución en general.

Figura 3: El diagrama muestra un sistema de refrigeración líquida monofásico a base de agua, de aplicación directa al chip, con intercambiador de calor líquido-aire.

La refrigeración por inmersión también es una opción, en la que todo el sistema electrónico se sumerge en un baño abierto de líquido dieléctrico. Esto puede ser extremadamente eficaz, ya que el líquido circula hacia un intercambiador de calor, como una torre de refrigeración. Sin embargo, existe cierta reticencia comprensible a utilizar la refrigeración por inmersión debido a preocupaciones medioambientales, la posibilidad de fugas y el hecho de que la refrigeración represente un único punto de fallo para todo el rack. El fluido utilizado no es conductor, pero tiene una constante dieléctrica que suele ser aproximadamente el doble que la del aire, lo que duplica la capacitancia parásita a través del líquido y puede afectar a las líneas de señal de alta frecuencia. El sistema puede ser monofásico o bifásico.

Comparaciones prácticas

La principal métrica del rendimiento relativo de la refrigeración por aire y por líquido es la capacidad calorífica, a veces denominada capacidad térmica. Esta es la potencia que calienta 1 kg del medio en 1 °C en un segundo. El valor para el agua es de 4,2 kJ/kg, mientras que para el aire es de 1,0 kJ/kg. 1 kg de aire equivale aproximadamente a 0,85 m³.³ mientras que 1 kg de agua es aproximadamente 1 litro o 0,001 m³ Por lo tanto, se requiere un volumen de aire 3600 veces mayor que el de agua para "mover" la misma cantidad de calor.

Para comparar el rendimiento relativo de los métodos de refrigeración, consideremos un procesador que disipa, por ejemplo, 1 kW (Q) con un límite de temperatura superficial de 80 °C en un ambiente máximo de 50 °C y con un flujo de aire rápido de 5 m/s. Este procesador necesitaría un disipador de calor con un volumen V de aproximadamente 2700 cm³.³, a partir de la relación simplista: V=(QRV)/ΔT ^[3]. Esto supone que el flujo de aire de 5 m/s proporciona una resistencia térmica volumétrica (RV) para el disipador de calor de 80 cm³.³ °C/W.

Un disipador de calor de este tamaño, aproximadamente un cubo de 14 cm, es claramente poco práctico. El tamaño podría reducirse, pero solo a costa de aumentar los costos de hardware y energía para disminuir la temperatura ambiente o permitir que la temperatura del procesador aumente, lo que generaría problemas de fiabilidad, ya que la temperatura del chip sería aún mayor. El calor extraído se disipa a través de otros componentes y se expulsa localmente al rack del servidor, donde el aire se enfría mediante el sistema de aire acondicionado del centro de datos. Otra limitación es que, para un aumento de temperatura del aire desde la entrada hasta la salida de, digamos, 20 °C y una potencia disipada de 1 kW, se necesita un caudal de aire de aproximadamente 40 litros por segundo y, a 5 m/s, esto requiere un área mínima para el paso del aire de alrededor de 8 cm.² que debe mantenerse a través de la carcasa del servidor blade.

En cambio, en un sistema de refrigeración líquida, una placa fría puede tener una resistencia térmica al líquido tan baja como 0,01 °C/W. Con 1 kW y un límite de temperatura de la superficie del chip de 80 °C, la temperatura del agua no debería aumentar más de 70 °C, suponiendo que no existan otras vías para la disipación del calor. Para una temperatura de entrada del agua de, digamos, 25 °C, podemos calcular el caudal másico (MFR) de agua requerido a partir de MFR = Q/ΔT.c ^[4], donde c es el calor específico del agua (4,2 kJ/kg°C). Esto da como resultado un MFR de 0,005 kg/segundo o 5 cm³/segundo, lo que equivale a un caudal de tan solo unos 6,4 cm/segundo a través de una tubería de 1 cm de diámetro, algo que se consigue fácilmente.

El agua caliente pasa a un intercambiador de calor, normalmente un radiador con aletas, pero este puede ser relativamente pequeño y eficiente, ya que las tuberías de refrigerante se pueden distribuir uniformemente, a diferencia de un disipador de calor de procesador, donde la fuente de calor se concentra en un área pequeña.

Conclusión

Debido a los enormes niveles de potencia de los procesadores más recientes para IA, la refrigeración líquida se ha convertido en una necesidad. Los kilovatios disipados también tienen implicaciones para la ubicación y la refrigeración de los convertidores CC/CC asociados, y estos deben tenerse en cuenta en el diseño térmico general.

(publicado por primera vez en Noticias sobre electrónica de potencia)

Referencias

[1] https://www.researchandmarkets.com/report/artificial-intelligence-server

[2] https://flexpowermodules.com

[3] https://celsiainc.com/resource…

[4] Simons, R., Estimación de temperaturas en un sistema de refrigeración híbrido agua-aire, Electronics Cooling, mayo de 2002

Aprovechamiento de la refrigeración líquida en centros de datos de IA

Introducción

métodos de enfriamiento

Comparaciones prácticas

Conclusión

Mantente conectado