Replanteamiento de la estrategia de centros de datos para la IA a gran escala
![]()

La crisis de la infraestructura de los centros de datos ya está aquí, y la mayoría de los operadores están teniendo dificultades para hacerle frente.
Estamos creando los modelos de IA más sofisticados de la historia, modelos que no pueden ejecutarse en infraestructuras heredadas diseñadas para servidores de correo electrónico y streaming de vídeo. La escala y la volatilidad de estas cargas de trabajo están poniendo de manifiesto los límites de las arquitecturas tradicionales más rápido de lo que los operadores pueden adaptarlas, y el desajuste entre las cargas de trabajo de IA y la infraestructura heredada de los centros de datos se está convirtiendo en la principal limitación para la propia innovación en IA.
Según las previsiones de McKinsey, la demanda mundial de capacidad de centros de datos podría pasar de 60 GW en 2023 a entre 219 y 298 GW en 2030. No se trata de un error tipográfico: ese crecimiento supone quintuplicar la capacidad mundial en menos de una década, y solo Estados Unidos se enfrentará a un déficit de 15 GW, incluso si se construyen todas las instalaciones previstas. Pero la capacidad bruta solo es una parte de la historia.
La física ha cambiado
Los centros de datos tradicionales se diseñaron para cargas de trabajo predecibles y transaccionales. Un rack empresarial típico funcionaba a 8 kW, se refrigeraba con aire forzado y se alimentaba a través de sistemas de 12 voltios. Esto funcionaba bien para bases de datos, aplicaciones web y almacenamiento en la nube.
Sin embargo, las cargas de trabajo de la IA están elevando la densidad de los racks por encima de los 120 kW. No se trata de un cambio incremental, sino de una reinvención completa de lo que debe ser un centro de datos. A estas densidades, la refrigeración por aire se vuelve físicamente imposible. Se necesitan sistemas de refrigeración líquida directa al chip o de inmersión total.
La arquitectura eléctrica tiene que pasar de diseños de 12 voltios a 48 voltios solo para reducir la pérdida de energía. Incluso la estrategia de ubicación cambia, y los desarrolladores abandonan los centros tradicionales por regiones como Alberta, Indiana y Iowa, donde la capacidad de transmisión y la economía energética tienen más sentido.
Tomemos como ejemplo el acuerdo de energía nuclear a 20 años firmado por Meta para sus operaciones de IA. Es un reconocimiento de que los requisitos energéticos de la IA han alterado fundamentalmente la ecuación de la infraestructura. La energía nuclear vuelve a estar sobre la mesa porque nada más puede proporcionar de forma fiable la energía constante y libre de carbono que demandan estas instalaciones.
La brecha de visibilidad
A medida que los centros de datos se apresuran a adaptarse, estas instalaciones se ven empujadas a extremos operativos sin precedentes, mientras que la mayoría de los operadores están, en esencia, volando a ciegas.
Entremos en un centro de datos típico actual. El sistema de climatización tiene su propio panel de control. La distribución de energía se realiza a través de un sistema SCADA independiente. El rendimiento informático se gestiona con otra herramienta más. ¿Telemetría de red? Una pila completamente diferente. Cada subsistema funciona de forma aislada, informando de forma intermitente a través de interfaces propietarias que no se comunican entre sí. Los operadores ven paneles de control, no decisiones.
Esta fragmentación podría haber sido aceptable cuando la mayor preocupación era mantener en funcionamiento los servidores de correo electrónico. Pero, ¿y cuando se gestionan sistemas de refrigeración líquida en los que un solo fallo de un sensor puede provocar un sobrecalentamiento y destruir millones en hardware? ¿Cuando los trabajos de entrenamiento de IA pueden durar semanas, consumiendo una enorme cantidad de computación sostenida, mientras que la inferencia se dispara de forma impredecible en función de los acontecimientos del mundo real? La supervisión estática y los bucles de retroalimentación retrasados no solo reducen la eficiencia, sino que crean un riesgo existencial.
Consideremos solo la refrigeración líquida. Los caudales, la presión del refrigerante, la temperatura del fluido y el estado de la bomba se convierten en variables críticas que requieren una supervisión en tiempo real y una respuesta instantánea. No se puede sondear estos sistemas cada pocos minutos y esperar lo mejor. La precisión y la respuesta en tiempo real ya no son opcionales, sino que marcan la diferencia entre la excelencia operativa y un fallo catastrófico.
Sin una visibilidad precisa y en tiempo real, los operadores corren el riesgo de sobreconstruir la capacidad como medida de seguridad o de cobrar de menos por cargas de trabajo que superan el consumo previsto. En cualquier caso, el coste se aleja del valor.
La infraestructura como problema de datos
La solución no es añadir más sensores o mejorar los paneles de control. Se trata de replantearse de forma fundamental cómo diseñamos las operaciones de los centros de datos.
Cada kilovatio consumido, cada grado de cambio de temperatura, cada ajuste del caudal, son flujos de datos que deben circular libremente, contextualizados y procesables, a todos los sistemas que puedan utilizarlos. Aquí es donde resulta esencial el concepto de una capa centralizada y estructurada en la que todos los datos operativos se publican una sola vez y son inmediatamente accesibles para todas las partes interesadas y todos los sistemas.
En lugar de codificar integraciones punto a punto frágiles entre sistemas —la «arquitectura espagueti» que afecta a la mayoría de las instalaciones—, cada sistema se conecta una vez al espacio de nombres dentro de una arquitectura unificada y basada en eventos. La telemetría se transmite a un único espacio de nombres, se organiza semánticamente y se hace accesible en todos los sistemas.
Los sistemas de refrigeración pueden responder instantáneamente a los cambios térmicos, y la coordinación de la energía se vuelve adaptativa en lugar de estar prevista para picos teóricos. Los clústeres de IA pueden escalarse no solo en función de la demanda, sino también en coordinación con la energía disponible, la capacidad de refrigeración y el ancho de banda de la red.
Este cambio arquitectónico permite algo aún más transformador: la verdadera transparencia de los costes. En lugar de facturar basándose en tarifas planas o reservas de recursos, los operadores pueden medir el uso real, como la utilización de la GPU, el consumo de energía y la carga térmica, creando modelos de costes que se ajustan al valor real del negocio.
La brecha competitiva
La estrategia para centros de datos de IA recientemente anunciada por Alberta ofrece una visión previa de hacia dónde se dirige el sector. Al abordar los centros de datos como una infraestructura crítica que requiere una planificación coordinada entre las empresas de servicios públicos, los reguladores y los operadores, su énfasis en la coordinación intersectorial y la conciencia operativa reconoce que la capacidad energética y las políticas favorables por sí solas no serán suficientes.
La visibilidad en tiempo real, las arquitecturas de datos unificadas y el control adaptativo definirán el rendimiento, la eficiencia y la competitividad de los centros de datos preparados para la IA. Las organizaciones que prosperen en la era de la IA no serán necesariamente aquellas con más centros de datos o los chips más grandes, sino aquellas que traten la infraestructura como un sistema inteligente y receptivo, capaz de detectar, adaptarse y optimizarse en tiempo real. El resto se encontrará perpetuamente rezagado, luchando con una infraestructura técnicamente avanzada pero operativamente primitiva.
La pregunta para los operadores no es si deben adaptarse, sino con qué rapidez pueden transformar sus operaciones antes de que la brecha se vuelva insuperable.
(datacenterdynamics.com)
Seguiremos brindándote más información sobre este tema en las siguientes presentaciones físicas y digitales de Channel News Perú
Mantente conectado a nuestra plataforma de negocios y revista, haciendo clic aquí y suscribiéndote a nuestro newsletter para contenido de valor diario