Contáctanos

Redes para IA: transformación más allá del chip 

Publicado en
6 de marzo de 2026

La topología de red de IA: escalamiento vertical, horizontal y transversal

Reducir los cuellos de botella de la red durante la transferencia de datos de IA entre nodos de cómputo presenta desafíos. La red para IA presenta un triple problema: escalabilidad dentro del rack, escalabilidad horizontal entre racks y escalabilidad entre centros de datos cuando se requieren redes de IA distribuidas debido a limitaciones de espacio o energía.

Ilustración de línea azul de un globo terráqueo con una flecha hacia arriba y una flecha hacia abajo que representan la transferencia o comunicación de datos global.

Ampliación de escala

El reto de la ampliación reside principalmente en conectar todas las GPU de un rack con conexiones de baja latencia y alto ancho de banda. Las redes de cable de cobre dentro del rack tienen un ancho de banda limitado, y los proveedores de servicios migran cada vez más estas conexiones a fibra para minimizar los atascos y la pérdida de datos, cuyos parámetros evolucionarán con el crecimiento de las GPU. Es posible que se requieran interconexiones de IA especializadas.

Ilustración de línea azul de un engranaje con flechas que apuntan hacia arriba, abajo, izquierda y derecha para representar operaciones multidireccionales o integración de sistemas.

Escalamiento horizontal

Cuando cientos de racks están conectados en el centro de datos, el desafío reside en gestionar la congestión, ya que múltiples flujos de datos compiten por el mismo ancho de banda. Los protocolos avanzados permiten que las estructuras de punto mínimo optimicen el flujo de tráfico de IA este-oeste con conmutadores de red, lo que proporciona enlaces rentables, de alta capacidad y baja latencia entre GPU.

Ilustración lineal azul de un globo terráqueo conectado por una línea a tres nodos con forma de cubo que representan una red o un sistema distribuido.

Escalamiento transversal

Cuando no es posible gestionar grandes cargas de trabajo de IA en un solo centro de datos, los switches escalables unifican las GPU entre varias instalaciones para que funcionen como una sola. Una infraestructura de red de fibra de IA de alto rendimiento y distribuida geográficamente supera los desafíos de la distancia y el cifrado de datos.

¿Qué necesita saber al diseñar redes de baja latencia para cargas de trabajo de inferencia de IA en tiempo real?

  • Ancho de banda por GPU durante cargas de trabajo reales
  • Cómo gestionan los tejidos los picos de tráfico sincronizados de la GPU
  • Presupuestos de latencia de microsegundos de salto a salto
  • Diferencias de rendimiento entre topologías como Clos, FatTree y Dragonfly
  • Límites del cobre frente a la fibra a altas velocidades y distancias variables
  • Madurez de la óptica co-empaquetada y la fotónica de silicio
  • Implicaciones térmicas y energéticas de las implementaciones de conmutadores
  • Impacto de las fallas de enlace durante el entrenamiento activo del modelo
  • Comportamiento y estabilidad del sistema operativo a hiperescala
  • Tolerancias y presupuestos de pérdidas del conjunto óptico
  • Intercambio de compensaciones de silicio entre proveedores
  • Utilización de la GPU en relación con las paradas de la red
  • Modos de fallo comunes en redes de IA densas
  • Densidad de ancho de banda de la costa (capacidad de transmisión de datos por unidad de longitud a lo largo del borde de un componente)
  • Eficiencia energética (pJ/bit)

¿Cómo ofrecer conectividad de alto rendimiento para cargas de trabajo de IA? 

El movimiento rápido y sincronizado de grandes volúmenes de datos requiere estructuras de redes de IA libres de congestión, arquitecturas de redes de IA de baja latencia y operaciones autónomas.

La configuración de redes de alto rendimiento para canales de datos de IA a gran escala se basa en una serie de avances en redes de IA, entre ellos:

  • Computar la tela
    La computación en la era de la IA exige que las estructuras de red sean sin pérdidas ni congestiones para evitar que el cómputo se ralentice y las GPU permanezcan inactivas (un estado costoso y derrochador), ya que todas deben finalizar su tarea actual antes de que pueda comenzar la siguiente. Están surgiendo redes con capacidades de hasta 1,8 Tbps para satisfacer las intensas necesidades de ancho de banda del entrenamiento de modelos. Los ingenieros evalúan los requisitos de latencia y ancho de banda ultrabajos, estándares abiertos e interoperabilidad, así como el costo y la familiaridad con la infraestructura.
     
  • Proceso de datos
    Las tarjetas de interfaz de red inteligentes (SmartNIC) y las unidades de procesamiento de datos (DPU) han surgido como una forma de descargar tareas complejas de la CPU para que pueda dedicar más recursos computacionales al procesamiento de aplicaciones. Estos adaptadores de red programables cuentan con sus propias unidades de procesamiento, lo que les permite gestionar el almacenamiento, la seguridad y la gestión de datos, entre otras cargas de trabajo.
     
  • Interfaces ópticas
    A medida que se intensifica la demanda de ancho de banda de la red de IA, los transceptores tradicionales pueden reducir la velocidad del flujo de datos hacia y desde el hardware de procesamiento. La integración de componentes ópticos más cerca de las GPU permite una transmisión de datos más rápida, reduciendo así la latencia. Innovaciones como la óptica coempaquetada, la óptica lineal conectable y la fotónica de silicio no solo aumentan el rendimiento, sino que también reducen el consumo de energía, una preocupación fundamental para los operadores de centros de datos de IA.
     
  • Interruptores
    Para soportar cargas de trabajo de IA, los conmutadores de red deben ser capaces de transferir enormes cantidades de datos entre puntos de conexión a una velocidad increíble, a menudo en ráfagas intensas que pueden saturar los conmutadores de red convencionales. Las topologías de redes de IA que emplean conmutadores inteligentes diseñados para mover el tráfico continuamente entre chips aceleradores de IA pueden gestionar flujos masivos de información sin atascos ni pérdida de datos gracias a innovaciones como el control avanzado de congestión y el enrutamiento adaptativo. También incorporan gestión inteligente de la energía para reducir el consumo y mejorar la monetización de la GPU.
     
  • Refrigeración líquida
    Las GPU no son el único hardware que consume mucha energía y genera calor en el centro de datos de IA. Gracias a su capacidad para disipar el calor con mayor eficiencia energética que los sistemas de refrigeración por aire, placas frías de refrigeración líquida Gestionar también los excesos térmicos de los conmutadores ASIC de red de IA.
     
  • software de código abierto
    La dependencia de un proveedor es una preocupación para los operadores de centros de datos. SONiC (Software para Redes Abiertas en la Nube) es un sistema operativo de red de código abierto que permite a las empresas utilizar la misma pila de software de red en diversos dispositivos de diferentes proveedores de conmutadores para lograr mayor flexibilidad, escalabilidad y modularidad.

¿Cómo fabricar tecnologías de redes de IA sofisticadas a escala?

Desde el punto de vista de la fabricación, la conclusión es que los operadores de centros de datos deben elegir socios con experiencia en ingeniería, capacidades de producción y cadenas de suministro resilientes Para ofrecer componentes de redes de IA sofisticados y de alta calidad a escala. Cuando una demanda sin precedentes se combina con una complejidad tecnológica y una tolerancia cero a los problemas de rendimiento, es fundamental elegir con inteligencia.

Busca un socio con:

Ilustración de línea azul de tres gabinetes de servidores con varios paneles, botones y compartimentos que representan equipos del centro de datos.

Capacidad demostrada para Fabricar tecnologías de centros de datos complejas y avanzadas en los altos volúmenes que los hiperescaladores, proveedores de nube y operadores de instalaciones de coubicación necesitan para cumplir con sus mandatos de capacidad computacional y rendimiento.

Ilustración de línea azul de un microchip que contiene un cerebro estilizado para representar la inteligencia artificial o el aprendizaje automático.

Conocimiento profundo de las tecnologías de redes de IA combinadas con experiencia en infraestructura de centros de datos para ayudar a los operadores a tomar decisiones integrales y bien informadas sobre múltiples parámetros, desde consideraciones de ancho de banda y latencia hasta eficiencia de energía/refrigeración y plazos de implementación.

Ilustración de línea azul de un trabajador de la construcción que viste casco y mono.

Técnicos en ubicaciones de fabricación clave en todo el mundo con una ejecución disciplinada para cumplir con los SLA y los estándares de calidad, que puede manejar el ensamblaje complejo de redes de IA, enrutamiento de fibra intrincado, integración de componentes ópticos y más.

Ilustración de línea azul de un dibujo a lápiz sobre un conjunto de líneas de medición discontinuas con flechas que indican dimensiones verticales y horizontales.

Servicios de diseño e ingeniería. con un enfoque en la innovación, la excelencia del producto y la preparación para la fabricación para minimizar el riesgo a medida que la producción aumenta con la creciente demanda y para comprender cómo el rendimiento puede variar con el tiempo.

Ilustración de línea azul de un monitor médico que muestra una forma de onda del latido del corazón con varios botones y controles en el lado derecho.

Servicios de prueba y validación para ayudar a garantizar el rendimiento, la confiabilidad y la durabilidad del producto durante todo su ciclo de vida.

Persona parada en un gran centro de datos sosteniendo una computadora portátil abierta y trabajando rodeada de filas de racks de servidores optimizados para redes de centros de datos de IA.

Las capacidades avanzadas de redes de IA son un factor diferenciador competitivo para los operadores de centros de datos, ya que las cargas de trabajo de IA proliferan y las redes deficientes se convierten en un cuello de botella. El tráfico de datos sin precedentes impulsa la innovación en las topologías de redes de IA para mejorar el rendimiento, la seguridad y la escalabilidad.

Preguntas frecuentes: Redes para IA

¿Qué es la creación de redes para la IA?

Las redes para IA se refieren a las arquitecturas, sistemas y tecnologías de red que conectan las GPU y otro hardware de TI. Están diseñadas para satisfacer las demandas de ancho de banda, latencia, rendimiento y confiabilidad de las cargas de trabajo de IA. 

¿En qué se diferencia la red para IA de la red tradicional?

Las cargas de trabajo de IA pueden impulsar flujos de datos a terabits por segundo (Tbps), superando con creces las redes tradicionales de 25 Gbps/100 Gbps. Para mantener las GPU al máximo rendimiento, los clústeres de IA requieren un alto ancho de banda, menor latencia y estructuras sin pérdidas. 

¿Qué significa “escalar verticalmente, hacia afuera y transversalmente” en redes de IA?

Escalado vertical: aumente el ancho de banda por GPU dentro del rack con estricta integridad de señal 

Escalamiento horizontal: conectar racks dentro de una instalación mediante estructuras que tienen en cuenta la congestión 

Escalabilidad transversal: unifique las GPU en los centros de datos mediante redes de fibra óptica cifradas y de baja latencia.   

¿Qué es una estructura computacional en los centros de datos de IA?

Una estructura de cómputo es una red de alta velocidad y sin pérdidas que permite que varias GPU funcionen como una sola. Las estructuras suelen estar diseñadas para soportar flujos de datos de 400 Gbps, 800 Gbps y, en desarrollo, de 1,6 Tbps a 1,8 Tbps. 

¿Cómo ayudan las SmartNIC y las DPU a las cargas de trabajo de IA?

Las SmartNIC y las DPU descargan las tareas de almacenamiento, seguridad y gestión de datos, liberando núcleos de CPU para una computación más intensiva.  

¿Por qué son importantes las interfaces ópticas para los clústeres de IA?

La óptica co-empaquetada, la fotónica de silicio y la óptica enchufable lineal colocan la óptica más cerca de las GPU y los ASIC para lograr un mejor rendimiento a escala.  

¿Qué hace que un interruptor esté “optimizado para IA”?

Los conmutadores preparados para IA soportan el tráfico en ráfagas de este a oeste con control de congestión avanzado, enrutamiento adaptativo, buffers profundos (cuando corresponde) y gestión inteligente de la energía.  

¿Cuándo es necesaria la refrigeración líquida en las redes de IA?

La refrigeración líquida se utiliza cuando las densidades de los interruptores y los aceleradores de IA elevan las cargas térmicas más allá de la capacidad de los sistemas de refrigeración por aire. Esto mejora la eficiencia energética y la estabilidad térmica. 

¿Qué es SONiC y por qué lo utilizan los centros de datos?

SONiC es un sistema operativo de red de código abierto que funciona con muchos proveedores de conmutadores diferentes, lo que reduce el bloqueo del producto y simplifica las operaciones de red de IA a gran escala. 

¿Cómo deberían las estructuras de red gestionar el tráfico sincronizado y en ráfagas de GPU?

Utilice un diseño sin pérdidas o casi sin pérdidas con señalización de congestión, enrutamiento adaptativo y diversidad de rutas para evitar el bloqueo en la cabecera de la línea y mantener alimentadas las canalizaciones de la GPU.