Contáctanos

Los conceptos básicos de refrigeración líquida en los centros de datos de IA

Una visión general

En el panorama cambiante de los centros de datos y la infraestructura de computación de alto rendimiento para aplicaciones de IA, la eficiencia de la refrigeración se ha convertido en un aspecto clave para los ingenieros que buscan optimizar tanto el rendimiento como el consumo de energía. Ante las crecientes exigencias de la IA, el aprendizaje automático y los procesadores multinúcleo, los métodos tradicionales de refrigeración por aire están llegando a sus límites.

Paralelamente, tendencias como suministro de energía vertical Los VPD se utilizan para minimizar las pérdidas en la red de distribución de energía (PDN), lo que da como resultado módulos que se pueden adaptar a configuraciones específicas de procesadores y servidores. El diseño de bajo perfil de los VPD complementa la refrigeración líquida directa al chip (D2C), esencial para los niveles de potencia de los servidores de IA. Este enfoque contrasta con la colocación lateral convencional de los convertidores CC/CC, que suelen diseñarse para refrigeración por aire forzado y un tamaño mínimo.

La refrigeración por aire forzado sigue siendo común en sistemas con baja densidad de potencia, pero presenta limitaciones importantes, como la necesidad de grandes disipadores de calor y la gestión del aire caliente de escape, que puede afectar negativamente a los componentes cercanos. Colocar los procesadores y los disipadores cerca de la salida de aire ayuda, pero limita la flexibilidad del diseño de la placa.

En cambio, la refrigeración líquida ofrece varias ventajas, como una mayor eficiencia en la transferencia de calor, un tamaño de sistema más reducido y un menor consumo de energía y costes operativos. Además, elimina la necesidad de ventiladores menos fiables, aunque sigue siendo necesario un intercambiador de calor centralizado. Si bien la refrigeración líquida requiere una mayor inversión inicial y puede reducir la disponibilidad del sistema debido a su centralización, mejora significativamente la eficiencia de la refrigeración.

Dibujo de suministro de energía vertical

Figura 1: Suministro de energía vertical a un procesador

Un sistema de refrigeración líquida híbrido, conocido como refrigeración directa al chip, transfiere el calor del procesador a una placa fría con canales de líquido (generalmente agua). Este sistema monofásico ofrece mejoras sustanciales en la disipación de calor en comparación con la refrigeración por aire forzado. Se pueden lograr mayores beneficios con líquidos a base de fluorocarbono en un sistema bifásico, que ofrece una absorción de calor aproximadamente 100 veces superior debido al calor latente de evaporación. Si bien es más costoso, este método es menos perjudicial en caso de fugas, lo que lo convierte en una opción viable a pesar de su precio.

El evolución de la refrigeración líquida directa Se ha centrado en dos tecnologías principales: refrigeración por microcanales y refrigeración por microconvección. La refrigeración por microcanales distribuye el calor de manera uniforme por la superficie, pero presenta dificultades con chipsets de alta potencia, lo que conlleva diseños con canales más estrechos y mayores requisitos de filtración, que afectan al funcionamiento de los centros de datos. Por el contrario, la refrigeración por microconvección, o impacto de microchorros, se dirige a puntos calientes específicos de los procesadores, ofreciendo una menor resistencia térmica y evitando los problemas de presión asociados a los microcanales, lo que la hace más eficaz para aplicaciones de alta potencia. JetCool, una empresa Flex, Ofrece módulos de refrigeración líquida D2C que utilizan conjuntos de pequeños chorros de fluido que se dirigen con precisión a estos puntos calientes en los procesadores, transformando el rendimiento de la refrigeración electrónica de alta potencia a nivel de chip o dispositivo.

La refrigeración por inmersión, donde todo el sistema se sumerge en un líquido dieléctrico, es otra opción. Ofrece una excelente eficiencia de refrigeración, pero las preocupaciones sobre el impacto ambiental, las fugas y el hecho de que el sistema sea un punto único de fallo limitan su adopción. La mayor constante dieléctrica del fluido también aumenta la capacitancia parásita, lo que podría afectar a las señales de alta frecuencia.

Datos clave sobre la refrigeración líquida

  1. En 2023, el El Departamento de Energía de EE. UU. asignó $40 millones para respaldar tecnologías innovadoras de refrigeración para centros de datos. Estos proyectos buscan ampliar los límites de la eficiencia energética y la sostenibilidad en los centros de datos.
  1. Los centros de datos tradicionales consumen alrededor de 12 kW por rack, pero los centros de datos de IA están experimentando un aumento drástico, con racks de ultra alta densidad que actualmente consumen 85 kW por gabinete. Las proyecciones futuras sugieren que esto podría aumentar. entre 200 kW y 250 kW por rack a medida que las cargas de trabajo de IA se vuelven más exigentes.
  2. Una mayor densidad de racks puede significar una mayor capacidad de datos, pero también un mayor consumo de energía y calor adicional. Los centros de datos operan de manera óptima entre 21 y 24 grados Celsius, Por lo tanto, cualquier aumento en la densidad de los racks debe ir acompañado de una mejor refrigeración.
  3. Los sistemas de refrigeración utilizan entre 25 y 401 TP34 T de la energía. en los centros de datos. A medida que aumenta la densidad de los racks, el diseño de los sistemas de refrigeración desempeñará un papel cada vez más crucial para mantener la eficiencia general.
Encuesta sobre sistemas de refrigeración realizada en 2024 por Uptime Institute sobre los tipos de refrigeración líquida directa utilizados en centros de datos e instalaciones de coubicación.

Figura 2: Estudio del sistema de refrigeración realizado por Uptime Institute sobre los tipos de refrigeración líquida directa utilizados en centros de datos/instalaciones de coubicación.

Glosario

Punto de ebullición:
La temperatura a la que un líquido se convierte en vapor; fundamental para el cambio de fase en la refrigeración bifásica.

Placa fría:
Las placas de refrigeración son el componente principal de los sistemas de refrigeración líquida. Estas placas metálicas se montan directamente sobre las CPU y las GPU. El refrigerante fluye a través de canales dentro de las placas, absorbiendo el calor y disipándolo de los componentes.

Condensador:
Componente donde el refrigerante vaporizado libera calor y se condensa de nuevo en estado líquido.

Refrigerante:
El líquido utilizado para absorber y transferir el calor de los componentes, comúnmente agua, mezclas de glicol o fluidos dieléctricos.

Fluido dieléctrico:
Un refrigerante no conductor que previene cortocircuitos eléctricos y corrosión.

Caudal:
El volumen de refrigerante que circula por un sistema, que normalmente se mide en litros por minuto.

Intercambiador de calor:
Un dispositivo que transfiere calor del refrigerante a otro medio.

Disipador de calor:
Dispositivo pasivo que disipa el calor distribuyéndolo sobre una superficie mayor.

Bucle líquido:
Un circuito cerrado para la circulación del refrigerante en un sistema de refrigeración.

Colectores:
Los colectores, que funcionan como centros de distribución del refrigerante dentro del bastidor, gestionan el flujo de refrigerante hacia y desde las placas frías, asegurando una distribución uniforme.

Desconexión rápida:
Conectores especializados que permiten conectar o desconectar las líneas de refrigerante de forma fácil y rápida.

Resistencia térmica:
Una medida de la capacidad de un material para resistir el flujo de calor; una menor resistencia indica una mejor transferencia de calor.

Material de interfaz térmica (TIM):
Material utilizado para mejorar la conductividad térmica entre un chip y un disipador de calor o una placa fría.

Bomba:
Dispositivo para hacer circular el refrigerante a través del sistema.

Suministro de energía vertical:
Un método para minimizar las pérdidas de energía mediante la colocación de los módulos de alimentación directamente encima o debajo del procesador.