Las cargas de trabajo de IA están redefiniendo los requisitos de suministro de energía en los centros de datos modernos. Las demandas de corriente ultraaltas, las rutas de suministro de energía cada vez más verticales y las arquitecturas térmicas avanzadas implican que el ingeniero de energía actual debe comprender mucho más que la conversión CC/CC tradicional.
Esta guía explica cómo 20 términos esenciales sistemas de energía de impacto, organizados en tres secciones:
- Arquitecturas y topologías de suministro de energía
- Control, protección y optimización digital
- IA, refrigeración y tendencias a nivel de sistema que influyen en el diseño de la alimentación.
1. Arquitecturas centrales de suministro de energía que dan forma a los sistemas de IA
El hardware de IA moderno consume niveles de energía extraordinarios —a menudo varios kilovatios por procesador— a través de rutas de conversión complejas y multietapa. Comprender la arquitectura que subyace a este flujo es fundamental para el diseño energético de los servidores de IA.
HVDC – Distribución de corriente continua de alta tensión
Los voltajes del bus de CC superiores a los niveles SELV (normalmente >60 Vcc) se utilizan dentro de los equipos para alimentar convertidores CC/CC de alto voltaje, lo que mejora la eficiencia de conversión y admite cargas de mayor corriente, como los aceleradores de IA. Algunos ejemplos son ±400 V y +800 V. A medida que la potencia del rack supera los 100 kW, distribuir la energía a ±400 V o +800 V HVDC se convierte en una opción eficiente. Una menor corriente de distribución reduce las pérdidas de cobre, el tamaño de los cables y las etapas de conversión antes de que la energía llegue al servidor.
IBA – Arquitectura de Autobuses Intermedia
Esquema de alimentación para centros de datos mediante un bus intermedio de 48 V o 12 V que alimenta módulos reguladores de voltaje. Desde la alimentación HVDC, los sistemas suelen pasar a un IBA (Bus Intermedio de Alimentación), un enfoque escalonado donde la energía se convierte primero a un voltaje intermedio estable antes de ser regulada localmente. En los servidores de IA, esta etapa intermedia suele ser de 48 a 54 V, seleccionada tanto por seguridad como por eficiencia.
DCX – Transformador de CC
Etapa CC/CC aislada de relación fija que proporciona una conversión de bus eficiente a alta potencia. Un elemento clave dentro de las arquitecturas basadas en HVDC, DCX Transfiere energía entre niveles de voltaje mediante aislamiento y conversión de relación fija. Los convertidores DCX permiten una distribución de alta potencia y alta eficiencia en el interior del rack o chasis del servidor antes de la regulación final.
LLC – Convertidor resonante inductor-inductor-capacitor
Convertidor resonante de alta eficiencia utilizado en fuentes de alimentación para bajo ruido y alta densidad. Los convertidores LLC se utilizan ampliamente en etapas iniciales o intermedias para lograr una alta eficiencia bajo diversas condiciones de carga. Sus características de conmutación suave los hacen ideales para el exigente perfil térmico de los entornos de IA.
Módulos reguladores de voltaje (VRM)
Módulo que proporciona alimentación regulada con precisión a procesadores o circuitos integrados. Los aceleradores de IA requieren alimentación subvoltaje a cientos o incluso miles de amperios. VRMLas s son la etapa final de regulación que suministra esta potencia directamente al paquete xPU (CPU/GPU/NPU/etc. – véase la sección 3). Su capacidad de respuesta transitoria es uno de los factores de rendimiento más críticos en las placas de IA.
TLVR – Regulador de voltaje transinductor
Topología avanzada de regulación de voltaje mediante inductores acoplados para alimentación de CPU de alta corriente. TLVR Se trata de una arquitectura VRM de última generación que ofrece una respuesta transitoria más rápida y una mayor eficiencia a altas corrientes. A medida que los aceleradores de IA imponen cambios de carga extremos, los diseños TLVR se vuelven cada vez más esenciales.
VPD – Suministro de potencia vertical
Arquitectura de alimentación que suministra corriente directamente desde el borde de la placa a ASICs o GPUs de alta corriente. Para superar las limitaciones del enrutamiento lateral de PCB, Departamento de Policía de Virginia La alimentación se distribuye verticalmente a través de interconectores o capas de encapsulado. Al acortar las rutas de alimentación, VPD mejora la eficiencia de la distribución y reduce la caída de tensión IR, algo esencial para los procesadores de IA de alta corriente.
TDP – Potencia de diseño térmico
Potencia máxima sostenida que un dispositivo disipa bajo cargas de trabajo típicas. Los ingenieros de potencia deben comprender el TDP, ya que define el límite térmico sostenido de cada procesador de IA, lo que influye en los presupuestos de energía, la ubicación de los módulos y la densidad de reguladores. Un TDP más alto implica una mayor integración entre el diseño eléctrico y el de refrigeración.
CESS – Sistema de almacenamiento de energía capacitivo
Sistema local de amortiguación de energía que utiliza almacenamiento de alta capacitancia (por ejemplo, ultracondensadores) para absorber o suministrar transitorios de carga rápidos, estabilizando el voltaje durante cambios repentinos de corriente en sistemas de potencia de alto rendimiento, como placas aceleradoras de IA. Al absorber y liberar carga cerca de la carga, IMPUESTO Reduce la tensión en los convertidores aguas arriba y estabiliza la red de distribución de energía.
PDN – Red de Distribución de Energía
Sistema de suministro de energía jerárquico. La red de distribución de energía (PDN) abarca toda la ruta eléctrica, desde la alimentación del rack, pasando por los reguladores de voltaje (VRM), hasta los contactos de alimentación del silicio. Diseñar una PDN de baja impedancia es fundamental para mantener la estabilidad del voltaje y evitar la degradación del rendimiento en cargas de trabajo de IA.
En conjunto, estos conceptos forman el columna vertebral estructural de la entrega de energía de la IA moderna.
2. Control, telemetría y protección en sistemas de energía con IA
Dado que los aceleradores de IA generan perfiles de corriente altamente dinámicos y, en ocasiones, impredecibles, los sistemas de energía modernos dependen de interfaces de control inteligentes, capacidades de monitoreo y esquemas de protección robustos para mantener un funcionamiento seguro y estable.
PMBus™ – Bus de gestión de energía
Estándar de interfaz de comunicación digital para convertidores de potencia y monitores. PMBus Proporciona configuración y telemetría en tiempo real para convertidores CC/CC. Permite a los diseñadores de sistemas de potencia monitorizar voltajes, corrientes, temperaturas, estados de fallo y métricas de rendimiento en miles de nodos de un clúster de IA.
AVS – Escala de voltaje adaptativo
AVS permite que la xPU (CPU/GPU/NPU, etc. – véase la sección 3) solicite ajustes de voltaje precisos en función de la carga de trabajo o el comportamiento del silicio. Esto reduce el consumo de energía, mejora el rendimiento por vatio y estabiliza los cambios rápidos de carga típicos de la inferencia y el entrenamiento de IA.
DLC – Compensación dinámica de carga
La compensación dinámica de carga estabiliza la salida del convertidor durante transitorios de carga rápidos ajustando el comportamiento del bucle de control y aplicando técnicas de anticipación. La compensación dinámica de carga ayuda a prevenir sobretensiones y subtensiones cuando los aceleradores de IA pasan de la inactividad a la carga máxima en microsegundos, asegurando que la red de distribución de energía (PDN) y el regulador de voltaje (VRM) se mantengan dentro de los límites de tolerancia.
OCP – Protección contra sobrecorriente
Protege convertidores, barras colectoras y dispositivos conectados contra sobrecorrientes, como cortocircuitos o fallas. En servidores de IA, con reguladores de voltaje multifásicos que suministran cientos de amperios, una respuesta rápida y coordinada de protección contra sobrecorriente es esencial para evitar fallas en cascada.
3. IA, refrigeración y tendencias a nivel de sistema que impulsan los requisitos de energía
Para diseñar sistemas de alimentación para cargas de trabajo de IA, los ingenieros deben comprender las fuerzas de computación y refrigeración que determinan los límites del diseño eléctrico. Estas tendencias a nivel de sistema influyen en todo, desde el comportamiento transitorio hasta el consumo total de energía del rack.
LLM – Modelo de lenguaje grande
Modelos de IA entrenados con vastos conjuntos de datos para tareas de lenguaje generativo o analítico. Los modelos de lenguaje natural (como los modelos de clase GPT) requieren enormes recursos computacionales y, por lo tanto, una gran cantidad de energía. Sus cargas de trabajo paralelas e intermitentes determinan las características transitorias que deben gestionar los VRM, las PDN y los sistemas locales de almacenamiento de energía.
xPU – CPU/GPU/TPU/NPU/IPU/FPGA
Término genérico que engloba todos los tipos de aceleradores de computación (CPU [central], GPU [gráficos], DPU [datos], TPU [tensor], IPU [inteligencia] y otros) que se utilizan de forma colaborativa en los sistemas de IA modernos.
HBM – Memoria de alto ancho de banda
Memoria apilada en 3D que proporciona un ancho de banda muy alto para aceleradores de IA/HPC. La HBM aumenta drásticamente la densidad térmica alrededor de la xPU y requiere rieles de alimentación de bajo voltaje estrictamente regulados. Su proximidad al chip de cómputo influye en la ubicación del VRM y en las limitaciones térmicas de la etapa de potencia.
D2C – Refrigeración directa al chip
D2C Proporciona refrigeración líquida directamente a las placas frías del encapsulado del procesador. Esto permite valores de TDP considerablemente más altos, lo que influye en la cantidad de energía eléctrica que deben suministrar los VRM y la PDN, así como en la estrecha integración entre el diseño térmico y el eléctrico.
CDU – Unidad de distribución de refrigerante
El CDU Regula el flujo, la presión y la temperatura dentro del circuito de refrigeración. Su rendimiento afecta directamente a la carga eléctrica admisible, las temperaturas del regulador de voltaje y la eficiencia del sistema.
PUE – Eficacia en el uso de la energía
La métrica principal de eficiencia de los centros de datos es la potencia total de las instalaciones dividida por la potencia de los equipos de TI. Las mejoras en la eficiencia de los convertidores, el diseño de los VRM, la optimización de la red de distribución de energía (PDN) y la refrigeración líquida contribuyen a un menor PUE a gran escala.
Conclusión
La revolución de la IA ha creado un nuevo entorno donde la electrónica de potencia, la arquitectura informática, las tecnologías de refrigeración y la optimización a nivel de sistema son inseparables. Comprender estos 20 términos fundamentales proporciona a los ingenieros el conocimiento necesario para diseñar y escalar sistemas de potencia fiables y de alta eficiencia para las cargas de trabajo de IA cada vez más exigentes de hoy en día.
A medida que las arquitecturas evolucionan —con TDP más altos, PDN más densas, VRM y VPD avanzados, refrigeración líquida y distribución HVDC—, mantenerse al día con el lenguaje del diseño de energía moderno se vuelve esencial.
Para que sigas desarrollando tus conocimientos, hemos recopilado uno de los glosarios técnicos más completos y actualizados del sector. Te recomendamos guardar en favoritos el glosario completo de abreviaturas técnicas de los módulos de alimentación Flex para consultarlo en el futuro, profundizar tus conocimientos y estar al día de las últimas tendencias en diseño de sistemas de alimentación.