Esta serie de blogs analiza los riesgos ocultos que subyacen a lo evidente en la carrera por ampliar los centros de datos de IA:
- Topologías cambiantes — Los ingenieros están reduciendo la inversión en la adquisición de energía, la infraestructura y el despliegue de centros de datos de próxima generación.
- Caos en el mercado — Todos están creciendo de forma agresiva, pero no de la misma manera ni a la misma velocidad.
- Estándares desconectados — Las normas de seguridad y tecnología se superponen, presentan redundancias o no pueden adaptarse a la velocidad del cambio.
Topologías cambiantes: Un cambio rápido y fundamental.
El primer riesgo oculto es el cambio topológico. La arquitectura física de un centro de datos está experimentando un rediseño fundamental, no una evolución incremental. Y el ritmo de ese rediseño es más rápido que los ciclos de diseño de la mayoría de las organizaciones. La topología está cambiando con mayor rapidez en tres dimensiones: energía, refrigeración y distribución de las instalaciones.
Arquitectura de potencia
La industria está pasando de la alimentación de racks de 48 V a la distribución de 400 V CC y 800 V CC. Esto no es una preferencia, sino una cuestión de física. Un voltaje más alto reduce la corriente necesaria para suministrar energía al rack (potencia = voltaje x corriente), lo que se traduce en conductores de cobre más pequeños que reducen significativamente las pérdidas resistivas. También permite trasladar la conversión de energía fuera del rack de TI a módulos de alimentación externos o sidecars. Al reubicar la conversión de energía, todo el volumen dentro del rack puede dedicarse a la computación. Con densidades de potencia cercanas a 1 megavatio por rack, esta arquitectura no es opcional.
El cambio a voltajes más altos también impulsa una rediseño de la arquitectura de suministro de energía vertical Para minimizar las pérdidas en la red de suministro de energía (PDN). Dado que estas pérdidas se concentran cerca de la carga (los chips que realizan el cálculo), acercar la conversión de energía a la GPU en lugar de depender de largas rutas de reducción de voltaje puede disminuir el consumo de energía.
En Flex, actualmente estamos distribuyendo sistemas de 400 VCC y pronto comenzaremos a implementar sistemas de 800 VCC, con una amplia adopción prevista para 2030.
Arquitectura de refrigeración
Los sistemas de refrigeración tradicionales basados en aire son eficaces hasta aproximadamente 50 kW por rack. Eso está muy por debajo de la potencia que consumen las cargas de trabajo de IA. NVIDIA GB200 NVL72 Está diseñado para aproximadamente 120 kW a nivel de rack. Las hojas de ruta del ecosistema indican que las plataformas de próxima generación superarán los 200 kW por rack. A estas densidades de potencia, el calor asociado no se puede disipar eficazmente con aire. Esto convierte la refrigeración líquida, que es mucho más eficiente termodinámicamente que la refrigeración por aire, en una prioridad para cualquier implementación de infraestructura de IA.
Existen varios enfoques técnicos para refrigeración líquida, y no son equivalentes. Cada una tiene implicaciones operativas distintas. Por ejemplo, las placas de refrigeración directas al chip son las más eficientes para dispositivos que requieren una alta potencia de diseño térmico (TDP). Estamos ofreciendo diseños de placas de refrigeración que pueden manejar GPU y aceleradores que superan los 3000 W de TDP y las cargas térmicas de 500 W/cm². La tecnología de placas de refrigeración microconvectivas, que utiliza matrices de 800 a 900 chorros de fluido localizados que apuntan a los puntos calientes a nivel del chip, permite temperaturas de refrigerante más altas (que operan a 42 °C o más en la entrada), lo que reduce o elimina la necesidad de enfriadores y disminuye drásticamente el consumo de agua.
El Open Compute Project (OCP) y su ecosistema en general han convergido en objetivos de caudal de aproximadamente 1,5 LPM/kW para racks refrigerados por líquido, frente a los valores de aproximadamente 1,0 LPM/kW comunes en generaciones anteriores. Las unidades de distribución de refrigerante (CDU) a nivel de rack ahora están diseñadas para soportar 300 kW con caudales cercanos a los 400 LPM. A nivel de fila, los sistemas CDU multirack ya alcanzan el rango de los megavatios, requiriendo varios miles de LPM de caudal de refrigerante. Estos son los parámetros de ingeniería que definen el diseño de las CDU en la actualidad.
Topología física
El aumento de la densidad de racks también modifica la distribución física de las instalaciones. A medida que la altura, el peso y los requisitos de espacio de los racks varían según la implementación, es necesario reevaluar aspectos estructurales como la carga del suelo, las rutas de red y la altura libre del techo. Al mismo tiempo, la organización física de la sala de datos se vuelve menos rígida, adaptándose la distribución para dar cabida a zonas de mayor densidad, diferentes configuraciones de equipos y nuevos requisitos de mantenimiento.
Soluciones de centros de datos modulares prefabricados (PMDC) Se trata de unidades prefabricadas y prediseñadas que permiten una expansión de capacidad escalable, predecible y eficiente. Un enfoque centrado en la fábrica, que combina energía y refrigeración en unidades llave en mano, mejora la previsibilidad del rendimiento, simplifica la instalación y permite que la producción de módulos y el trabajo en obra se realicen simultáneamente. Hemos comprobado que las soluciones PMDC pueden reducir los plazos de los proyectos en un 30 % o más, a la vez que disminuyen significativamente la necesidad de mano de obra in situ. Además, las pruebas y el cableado in situ se reducen hasta en un 70 % cuando las soluciones PMDC se precablean y prueban en fábrica, y se minimizan los cambios en obra.
La seguridad en la construcción y la energización también impulsa la adopción de soluciones PMDC. Cuando se realiza una integración compleja en la fábrica, estas soluciones llegan a la obra con protecciones y enclavamientos validados. Las pruebas de los sistemas integrados bajo fallas simuladas se completan antes de la implementación, lo que reduce el riesgo para las personas, los equipos y las instalaciones.
Demanda urgente. Soluciones coordinadas.
La curva de demanda de infraestructura informática para IA no se parece a nada que la industria tecnológica haya enfrentado antes. A nivel mundial, la demanda de energía para centros de datos es enorme. se ha duplicado en cinco años, y el consumo de energía de la IA está creciendo 4,5 veces. Más de 1.350.1 billones de dólares Se invertirá capital en la expansión del centro de datos en 2026.
La carrera por escalar los centros de datos de IA es real y urgente. Los problemas de ingeniería son realmente difíciles, no porque las tecnologías individuales no existan —que sí existen— sino porque el ritmo de cambio en la topología, la estructura del mercado y los estándares es más rápido que la capacidad de la industria para diseñar, certificar e implementar en respuesta a ello.
Las limitaciones que preocupan a todos —energía, cadenas de suministro, sostenibilidad— no desaparecen, sino que se acumulan. Las organizaciones que triunfan son las que se coordinan entre sí en lugar de reaccionar individualmente ante ellas. La solución no reside en una sola tecnología ni en una sola empresa, sino en llevar a cabo el trabajo. Para las topologías cambiantes, esto significa diseñar sistemas, no partes, y tratar el rack y el centro de datos como arquitecturas integradas desde el primer día.
La próxima vez, analizaremos más de cerca un segundo riesgo oculto, igualmente importante, para la construcción de centros de datos: el caos del mercado.