Los centros de datos y las redes eléctricas

Por: Andy Lawrence, founding member and Executive Director of Research at Uptime Institute

En marzo de 2025, el aeropuerto londinense de Heathrow se quedó sin electricidad debido a un incendio en una subestación. Todo el aeropuerto, con sus cinco terminales, permaneció cerrado durante un día entero; 1.300 vuelos de corta distancia (y 120 de larga distancia) fueron cancelados, redirigidos o devueltos. El coste se ha estimado en varios cientos de millones de libras.

El cierre de Heathrow desencadenó un debate nacional, más propio de una conferencia sobre centros de datos: ¿Había suficiente capacidad? ¿Por qué las fuentes de energía alternativas (de dos subestaciones cercanas) no absorbieron la carga? ¿Qué tipo de conmutación se había implementado? ¿Había suficientes generadores? ¿Qué infraestructura había delante del contador (y, por lo tanto, responsabilidad de la compañía eléctrica) y qué había detrás del contador?

Un mes después, en España y Portugal, un gran apagón nacional planteó preguntas similares (sin respuestas claras hasta la fecha). Expertos y no expertos analizan la naturaleza de las fluctuaciones repentinas de carga, las caídas y subidas de tensión y frecuencia, la seguridad tecnológica operativa, los fallos en cascada y la intermitencia de la generación de energías renovables.

Un día después de la interrupción del servicio en Heathrow, algunos de los afectados por el caos comenzaron a preguntarse por qué los centros de datos cercanos, alimentados por la misma subestación, como los operados por Ark Data Centres y Virtus Data Centres, seguían funcionando sin problemas, mientras que el aeropuerto sufría una interrupción catastrófica. (Los centros de datos en España y Portugal prácticamente no se vieron afectados durante la interrupción ).

No es necesario analizar aquí cómo los centros de datos lograron superar la interrupción, pero no está tan claro por qué el aeropuerto, que forma parte inequívocamente de una infraestructura nacional crítica, no recibió una protección similar. No se trata de una cuestión técnica, sino económica: a pesar de las advertencias escritas de los representantes de las aerolíneas, los propietarios de Heathrow han confiado en la estabilidad de la fiabilidad de la red, ahorrando decenas de millones de libras en las últimas décadas. Se sabe que la dirección consideró, pero no invirtió en, la conmutación automatizada, que habría permitido al aeropuerto aprovechar la capacidad de energía sobrante en las otras dos subestaciones. Asimismo, carece de cobertura universal de generadores para sistemas críticos, un plan general de mantenimiento concurrente y no ha realizado formación ni pruebas para una interrupción importante de la red.

Ahora, bajo intenso escrutinio, los ejecutivos aeroportuarios presentan estas decisiones como justificables, dada la fiabilidad de la red y la estrategia común de otros aeropuertos del mundo. Una solicitud de planificación del Centro de Datos Ark, de diciembre de 2024, afirma que la fiabilidad de la red local se calculó en un 99,999605 %, una cifra convincente para los contables, si no para los administradores e ingenieros de los centros de datos.

La diligencia y la inversión en Ark Data Centres (y otros centros de datos) son, por supuesto, prácticas habituales en la industria de los centros de datos. Los niveles de resiliencia de Nivel III son un punto de partida predeterminado en el diseño de centros de datos. Sin embargo, esto no siempre ha sido así, y podría no serlo siempre. En diversas ocasiones, la necesidad de mantenimiento simultáneo y tolerancia a fallos se ha visto cuestionada. Por ejemplo, los primeros operadores comerciales de colocation (en la década de 1990) se mostraron inicialmente reacios al alto coste percibido de los diseños de Nivel III y Nivel IV. Los primeros en adoptar los estándares Tier del Uptime Institute en aquel momento pertenecían a sectores como los servicios financieros, no a las empresas emergentes que alojaban servicios de Internet. Fue más tarde, cuando las empresas de colocation buscaron clientes comerciales importantes, cuando comenzaron a construir y operar instalaciones altamente resilientes.

Entre 2010 y 2015, a medida que la industria buscaba diseños más eficientes y estandarizados, algunos diseñadores cuestionaron la estrategia, sugiriendo que la clasificación Tier incitaba a la industria a sobrediseñar los centros de datos y priorizaba la resiliencia sobre la sostenibilidad y la eficiencia energética. Esta acusación fue rápidamente refutada: los operadores siempre podían elegir el nivel de resiliencia según sus necesidades comerciales; los clientes exigían (y estaban dispuestos a pagar por) un mantenimiento simultáneo. Además, los centros de datos más resilientes solían ser los más eficientes energéticamente.

A mediados de la década de 2010, un nuevo desarrollo cuestionó la preferencia por altos estándares de resiliencia a nivel de sitio. Los gigantes de internet y algunas empresas argumentaron que las cargas de trabajo podrían distribuirse entre tres o más centros de datos. Adoptar esta arquitectura significa que el fallo de una sola instalación no sería un problema. Si ocurriera un fallo, los demás centros de datos (sobredimensionados para cubrir necesidades de emergencia) podrían asumir la carga de trabajo. Cuantos más centros de datos participen, menor será el sobredimensionamiento necesario.

Esta estrategia de resiliencia distribuida ha tenido éxito y ha sido ampliamente adoptada por muchas empresas importantes, como Meta, AWS e IBM. Un proveedor de colocation declaró que no le preocupaba la resiliencia del sitio y que sus instalaciones podían resistir incendios, inundaciones y desastres al distribuir y conmutar las cargas de trabajo. Sin embargo, esto ocultaba un hecho importante: los operadores seguían utilizando instalaciones con total capacidad de mantenimiento concurrente. Solo aquellos operadores con cargas de trabajo más homogéneas y fácilmente distribuidas, y los clientes menos sensibles, se han arriesgado a utilizar una infraestructura de Nivel II (componentes redundantes para alimentación y refrigeración, pero sin capacidad de mantenimiento concurrente).

En retrospectiva, esto no es sorprendente. Si bien se ha demostrado que la resiliencia distribuida funciona eficazmente para muchas cargas de trabajo, es costosa, difícil de implementar y requiere diligencia. También requiere la implementación de técnicas complejas de gestión del tráfico, duplicación de datos y sincronización. Como muestran los datos de interrupciones del Uptime Institute, también está sujeta a fallos de software y configuración. Si bien la resiliencia distribuida ha ayudado al sector de los centros de datos a reducir las interrupciones generales, se basa principalmente en (y no en lugar de) una red de centros de datos de nivel III.

¿Niveles inteligentes?

¿Qué viene después? Hoy, en 2025, una serie de importantes fallos en la red, sumado a la fuerte preferencia de los compradores, ha reducido la probabilidad de que cualquier operador comercial convencional renuncie al mantenimiento simultáneo o renuncie a la independencia de la red para ahorrar dinero. Los diseños de Nivel III han llegado para quedarse. (La investigación de Uptime Intelligence sugiere que la infraestructura con mantenimiento simultáneo es la preferida incluso para el entrenamiento de IA, a pesar de que estas cargas de trabajo por lotes, que consumen mucha energía, no están orientadas al cliente y, en la mayoría de los casos, pueden reiniciarse sin mayores problemas tras una interrupción).

Sin embargo, existe presión para el cambio, y el tema de la resiliencia ha resurgido en algunos eventos del sector. El problema no se centra tanto en las dificultades para mantener la refrigeración líquida (aunque esta pregunta se plantea), sino más bien en las relaciones técnicas, contractuales y económicas entre las empresas de servicios públicos y los operadores de centros de datos, que se esfuerzan por soportar enormes cargas de trabajo.

La IA (como carga de trabajo) es el catalizador. Para propietarios y operadores, asegurar suficiente energía eléctrica no es el único desafío, sino también suministrar suficiente capacidad de generación in situ. La capacidad in situ requerida ha aumentado de un solo dígito a decenas (o incluso cientos) de megavatios en los últimos años. La complejidad, el costo, la tramitación de permisos y la experiencia operativa requerida, sin mencionar las dificultades de la cadena de suministro, están obligando a los propietarios de centros de datos a reevaluar cuánta cobertura necesitan y si sigue siendo económico y práctico usar generadores de respaldo. Para muchos propietarios de centros de datos, sería preferible instalar turbinas de gas o hidrógeno que funcionen continuamente.

Sin embargo, esto cambia inmediatamente la naturaleza de la relación con la empresa de servicios públicos, para quien no resulta práctico ni económico ser un mero proveedor de respaldo. A esta escala, ni el operador del centro de datos ni la empresa de servicios públicos pueden permitirse operar de forma totalmente independiente.

Aquí es donde entran en juego las cuestiones tradicionales de resiliencia: los operadores de centros de datos han defendido durante mucho tiempo el principio de controlar su propia energía y nivel de redundancia. Pero para las empresas de servicios públicos, que luchan por satisfacer la creciente demanda, la idea de que estos grandes activos generadores puedan aislarse y protegerse (con derechos garantizados para sus propietarios) ya no es un hecho; debe formar parte de una negociación.

¿Significa esto que los principios de diseño de Tier están a punto de cambiar o de aplicarse con mayor liberalidad? Casi con toda seguridad no: la evidencia de ejemplos recientes, y las fuertes preferencias de los clientes, desaconsejan esta posibilidad. Sin embargo, es probable que tanto la red eléctrica como las empresas de servicios públicos comiencen a explorar cómo aplicar los sólidos principios de resiliencia con mayor inteligencia y datos reales. También es probable que prioricen compartir la capacidad de generación, medir, categorizar, trasladar o incluso reducir las cargas de trabajo, y utilizar la capacidad disponible —que suele ser abundante— de forma más eficaz.

(datacenterdynamis.com)

Les estaremos informando con mucho más detalle, en el marco del informe especial: “Soluciones y productos de infraestructura para edificios y ciudades inteligentes (Sistemas BIM y BMS), POL (Passive Optical LAN). Seguridad integrada, video vigilancia y control de acceso. Casos de uso y aplicabilidad de cada solución y producto, incluyendo la colaboración digital (relacionado a realidad virtual sistema BIM) (Gemelos digitales). Buenas prácticas ambientales.», que estamos preparando para nuestra edición 215 y publicaremos en el mes de agosto.

Mantente conectado a nuestra revista Channel News Perú, haciendo clic aquí y suscribiéndote a nuestro newsletter para contenido de valor diario.

Digiqole Ad
...

Notas Relacionadas