Más allá del punto de ruptura: por qué la estrategia de UPS no se construyó para la revolución de la IA

Las unidades de procesamiento gráfico (GPU) están superando los límites de la infraestructura energética de los centros de datos. Las cargas de trabajo de IA están impulsando el deseo de clústeres de GPU que puedan ofrecer una inmensa potencia de procesamiento paralelo, ya que los hiperescaladores, los proveedores de colocación y los operadores empresariales están sintiendo la presión.
Al mismo tiempo, las demandas térmicas se han convertido en una preocupación primordial, y la adaptación y ampliación de los centros de datos para soportar estas cargas de trabajo han surgido como un obstáculo significativo. La revolución de la IA que impulsa la adopción de GPU implica que las estrategias de sistemas de alimentación ininterrumpida (SAI) deben ser una de las principales prioridades de TI y de la sala de juntas.
Las GPU impulsan el cambio
La IA, el aprendizaje automático y la computación de alto rendimiento han revolucionado los centros de datos, y con este avance llega el tema de las GPU. Una GPU es un circuito electrónico diseñado para manipular y alterar rápidamente la memoria con el fin de acelerar la creación de imágenes, vídeos y otros contenidos visuales. Dado que pueden realizar múltiples cálculos simultáneamente, las GPU se utilizan en aprendizaje automático, edición de vídeo y cálculos avanzados de alta velocidad. Este salto en capacidad tiene un coste. Las GPU consumen más energía y generan mucho más calor que los procesadores tradicionales.
En el pasado, la unidad central de procesamiento (CPU) era el procesador principal para realizar tareas generales. Sin embargo, los sistemas heredados creados para cargas de trabajo de CPU predecibles y de baja densidad tienen dificultades para adaptarse. Este cambio hacia la computación intensiva en GPU está alterando el diseño de los centros de datos y las estrategias de suministro de energía. En la actualidad, los racks de GPU pueden consumir hasta 700 W y algunos necesitan 1.200 W o más.
La mayoría de los sistemas SAI existentes, construidos antes de la explosión de la IA, no se diseñaron para estas nuevas cargas de trabajo. Como resultado, estos sistemas antiguos y heredados carecen de la capacidad, la capacidad de respuesta y la escalabilidad necesarias para el tiempo de ejecución y la fiabilidad bajo cargas de GPU modernas.
Limitaciones del suministro eléctrico
En los últimos cinco años, las cargas de trabajo de IA se han multiplicado por más de diez. Este crecimiento requiere clusters de GPU capaces de proporcionar una inmensa capacidad de procesamiento paralelo, pero también un aumento de los costes energéticos y térmicos.
El aumento de las cargas de trabajo se ha puesto de manifiesto en la inferencia de IA, que utiliza un modelo de IA entrenado para generar resultados a partir de datos nuevos y desconocidos. La inferencia es fundamental para desplegar la IA en aplicaciones del mundo real.
Tomemos, por ejemplo, el anuncio de Meta de actualizar su infraestructura de IA en 1.000 millones de dólares. Los planes incluirán la necesidad de clusters de GPU dedicados. Actualizaciones de esta magnitud requieren escalar las demandas de potencia en entornos de hiperescala. La capacidad de gestionar esta demanda es crucial.
No sólo los hiperescaladores se están viendo presionados; los proveedores de servicios de colocación y los operadores empresariales también están notando la presión. La densidad de potencia se ha convertido en una limitación crítica. Los tiempos de funcionamiento de los SAI se están reduciendo drásticamente bajo cargas de GPU. Durante un apagón, la cobertura media era de 10 a 15 minutos; sin embargo, los sistemas más antiguos tienen ahora dificultades para alcanzar entre tres y cinco minutos de cobertura. Esto indica que se necesitan rediseños.
Las demandas térmicas son ahora una consideración totalmente distinta, que a menudo supera incluso a los mejores sistemas de refrigeración. El calor de los bastidores de GPU está desbordando los modelos de flujo de aire diseñados para implantaciones más antiguas y de menor potencia. Sin una refrigeración adecuada o capacidades inteligentes de reducción de carga, los sistemas SAI podrían convertirse en puntos de fallo.
La pesadilla para los gestores de infraestructuras digitales es que estos problemas suelen aparecer después de la implantación de las GPU. Adaptar una infraestructura eléctrica puede costar entre dos y tres veces más que las actualizaciones previstas y aumentar el riesgo de interrupciones del servicio. Las interrupciones no planificadas pueden superar los 100.000 dólares de media por incidente, y el coste se atribuye a fallos de alimentación o refrigeración en cascada.
Las estrategias de SAI deben ser una decisión de la junta directiva
Resolver estos problemas no es tan sencillo como sustituir el hardware antiguo. Una estrategia de SAI preparada para el futuro requiere un pensamiento holístico. Los diseños deben ser escalables. Esto significa utilizar unidades SAI modulares que puedan ampliarse con las cargas de la GPU, integrando al mismo tiempo la supervisión de la energía en tiempo real y el equilibrio de la carga para gestionar las fluctuaciones de la demanda.
Este cambio no es sólo una conversación sobre las instalaciones; es una decisión que debe tomar la junta directiva. Esto incluye un plan para alinear los conceptos de suministro eléctrico con estrategias térmicas como la refrigeración líquida y la contención de pasillos calientes. Un buen ejemplo de planificación adecuada son los centros de datos de Google dedicados a la IA, que combinan configuraciones avanzadas de SAI con sistemas automatizados de reducción de carga. Esto permite realizar ajustes en la distribución de energía sin afectar al servicio.
Proporcionar a la IA la energía que necesita requiere algo más que potencia de cálculo. Se necesita una infraestructura innovadora en todos los niveles. Sin una energía resistente y escalable, ni siquiera la pila de IA más avanzada puede funcionar a pleno rendimiento.
Enfoque proactivo
La revolución de las GPU está reconfigurando el diseño de los centros de datos, y las estrategias de SAI heredadas ya no son adecuadas. Las cargas de trabajo predecibles de la CPU están siendo sustituidas por clusters de GPU que exigen enfoques totalmente nuevos para la gestión energética y térmica.
Las GPU exigen una transformación compleja que no puede llevarse a cabo de forma aislada. Es necesario asociarse con operadores y constructores de centros de datos que sean líderes en innovación de infraestructuras energéticas. Lo que se necesita no es sólo hardware SAI avanzado, sino también la experiencia estratégica para diseñar sistemas modulares y escalables que anticipen el crecimiento de la carga de trabajo de IA en lugar de reaccionar ante él.
Los operadores que adopten un enfoque proactivo serán los que impulsen los avances de la IA del mañana. Los que vacilen se darán cuenta de que se enfrentan a costosas adaptaciones y se arriesgan a interrupciones del servicio.
La cuestión no es si debe actuar, sino con qué rapidez puede alinearse con los socios estratégicos adecuados para preparar su infraestructura para el futuro. La revolución de la IA no espera. O se adapta o pasará a ser una nota a pie de página en la historia.
(datacenterdynamics.com)
Les estaremos informando con mucho más detalle, en el marco del informe especial: “Soluciones de infraestructura de Data centers y edge computing, componentes activos (UPS, AAC, generadores, tableros eléctricos, PDU) y pasivos (cables, gabinetes, pisos, accesorios, conectores). Climatización. IA y Ciberseguridad. Buenas prácticas ambientales», que estamos preparando para nuestra edición 216 y publicaremos en el mes de noviembre.
Mantente conectado a nuestra revista Channel News Perú, haciendo clic aquí y suscribiéndote a nuestro newsletter para contenido de valor diario

