Una conversación con Rick Payne, vicepresidente de diseño e ingeniería de Flex, sobre innovación, eficiencia hídrica y diseño térmico de última generación.
La IA lo cambia todo en el diseño térmico. Estamos pasando de cargas de trabajo relativamente predecibles, basadas en CPU, a entornos impulsados por GPU con densidades de potencia extremas y perfiles de carga altamente dinámicos. Esto significa que el calor está más concentrado, es más variable y mucho más difícil de gestionar con los sistemas tradicionales basados en aire. La refrigeración ya no se trata solo de mantener la temperatura ambiente; se trata de eliminar el calor precisamente en la fuente, a nivel del chip, en tiempo real. Ahí es donde refrigeración líquida directa al chip Se convierte en algo esencial, no opcional.
La eficiencia en el uso del agua (WUE, por sus siglas en inglés) se ha convertido en una métrica fundamental, ya que los centros de datos compiten a gran escala por recursos hídricos limitados. Algunas instalaciones consumen millones de galones diarios, lo cual resulta insostenible a largo plazo. El problema radica en que muchos sistemas de refrigeración tradicionales imponen una disyuntiva: se puede optimizar la eficiencia energética o hídrica, pero no ambas. Los sistemas evaporativos, por ejemplo, son energéticamente eficientes, pero consumen mucha agua. Nuestro objetivo es superar esta disyuntiva. Buscamos lograr una refrigeración de alto rendimiento con un consumo mínimo o nulo de agua en las instalaciones.
Refrigeración líquida Mejora sustancialmente la eficiencia de la transferencia de calor. El agua o los fluidos dieléctricos pueden absorber y disipar el calor con mucha más eficacia que el aire. Con los sistemas de refrigeración directa al chip, se elimina el calor justo donde se genera, en lugar de intentar enfriar toda la sala de servidores.
Esto tiene dos grandes ventajas:
En muchos casos, se pueden eliminar o reducir significativamente las torres de refrigeración, lo que tiene un efecto directo y positivo en la eficiencia del uso del agua.
No todos los sistemas de refrigeración líquida son iguales. La verdadera innovación reside en la eficiencia con la que se disipa el calor del chip y se elimina del sistema. La diferencia radica en si la refrigeración se considera una optimización a nivel de sistema o simplemente un complemento a la infraestructura existente.
Los enfoques más avanzados se centran en cuatro aspectos clave:
Este modelo se vuelve cada vez más difícil de escalar. Cuando la refrigeración depende en gran medida de una infraestructura centralizada, como grandes plantas de refrigeración o sistemas que consumen mucha agua, surgen limitaciones en cuanto a energía, disponibilidad de agua y espacio físico. Lo que estamos viendo es una transición hacia arquitecturas de refrigeración más distribuidas y modulares que operan más cerca del centro de procesamiento. Esto reduce las pérdidas, mejora la capacidad de respuesta y ofrece a los operadores mayor flexibilidad a medida que evolucionan las cargas de trabajo. A escala de IA, la eficiencia debe integrarse en el diseño del sistema, no añadirse posteriormente.
Sí, pero requiere una integración cuidadosa. La mayoría de los centros de datos existentes no fueron diseñados para las densidades de potencia ni las cargas térmicas asociadas con la IA, por lo que la modernización no es tan simple como cambiar un método de refrigeración por otro. Dicho esto, muchos operadores están adoptando con éxito enfoques híbridos, introduciendo la refrigeración líquida en zonas específicas dentro de la sala de datos existente. Esto les permite dar soporte a clústeres de GPU sin tener que renovar toda la instalación.
La clave reside en la modularidad y la escalabilidad. Los sistemas modulares de refrigeración líquida pueden implementarse de forma incremental, rack por rack o fila por fila, coexistiendo con la infraestructura existente de refrigeración por aire. Esto minimiza las interrupciones y permite a los operadores aumentar gradualmente la capacidad y la eficiencia. Desde la perspectiva de la eficiencia energética, las modernizaciones también ofrecen la oportunidad de reducir la dependencia de los métodos de refrigeración que consumen grandes cantidades de agua.
Ambos enfoques superan significativamente la refrigeración por aire, pero difieren en su impacto en la eficiencia del agua (WUE), la eficiencia del uso de energía (PUE) y los plazos de implementación. La refrigeración líquida directa al chip mejora la PUE al eliminar el calor de manera eficiente en la fuente y puede reducir la dependencia de la refrigeración evaporativa, lo que contribuye a mejorar la WUE. Además, es más fácil de adaptar, lo que la convierte en la vía más rápida para escalar cargas de trabajo de IA. La refrigeración por inmersión puede aumentar aún más la eficiencia, especialmente para densidades extremas, con importantes beneficios potenciales tanto para la WUE como para la PUE. Sin embargo, requiere cambios fundamentales en el hardware, las operaciones y el diseño de las instalaciones. Por consiguiente, aún se encuentra en gran medida en las fases piloto o de adopción temprana, mientras que la refrigeración directa al chip se está convirtiendo en el estándar a corto plazo.
Aquí es donde un marco de eficiencia integral se vuelve esencial. Optimizar una métrica de forma aislada puede generar consecuencias no deseadas en otros ámbitos. Por ejemplo, se puede reducir el PUE (Índice de Eficiencia Energética) a la vez que aumenta el consumo de agua. Se puede mejorar el rendimiento computacional a la vez que aumenta la complejidad de la refrigeración. Y se puede reducir el consumo de energía pero depender de fuentes con altas emisiones de carbono. Los líderes en este sector son quienes gestionan estas interdependencias de forma deliberada, y la refrigeración se sitúa en el centro de ese equilibrio. Impacta directamente en los resultados de energía, agua y emisiones de carbono.
La innovación es el único camino a seguir. La IA no se detiene, por lo que la infraestructura debe evolucionar para respaldarla de manera responsable. Es necesaria una colaboración más estrecha en todo el ecosistema entre fabricantes de chips, diseñadores de sistemas y proveedores de infraestructura. Esto significa:
Tres cosas:
El futuro no consiste en mejoras graduales a los sistemas heredados. No hay tiempo para eso. Se trata de repensar fundamentalmente la gestión térmica como un elemento clave para el desarrollo de la infraestructura de IA.
Descubra cómo la eficiencia energética (WUE), la eficiencia energética puntual (PUE) y las estrategias de refrigeración de última generación se integran en un marco integral de eficiencia para centros de datos.