Desbloqueando el potencial de la refrigeración líquida directa al chip

Loading

Por Tom Traugott, vicepresidente sénior de tecnologías emergentes en EdgeCore Digital Infrastructure

Desde que la familia de modelos GPT-4o rompió la barrera de un billón de parámetros en abril de 2024, la necesidad de que los centros de datos satisfagan las cambiantes necesidades de IA tanto para escalar horizontalmente (clústeres y campus más grandes) como verticalmente (mayor densidad de potencia por rack) es mayor que nunca y está reescribiendo el manual para el diseño de centros de datos.

En este contexto, la refrigeración líquida directa al chip (DLC) ha superado la barrera entre los laboratorios de computación de alto rendimiento especializados y la producción general. Lo que parecía ambicioso en 2023 es la especificación deseada para soportar cargas de trabajo de IA de vanguardia en 2025, y se convertirá en la especificación mínima para servidores GPU aún más densos en 2026.

La infraestructura del centro de datos debe ser capaz de manejar los crecientes requisitos de densidad de las GPU y al mismo tiempo mantener la capacidad de soportar de manera pragmática el hardware generador de ingresos y operativo de los últimos años.

Por ejemplo, la tecnología del chip A100 de Nvidia, con cinco años de antigüedad, sigue vigente. Las GPU de vanguardia actuales requieren más de 125 kW de potencia en un solo rack, una potencia muy superior a la que admite la tecnología tradicional de refrigeración por aire. Se espera que las GPU del próximo año superen los 200 kW por rack, con una tendencia hacia los 300 kW por rack.

Pero aún hay más: en la Cumbre OCP EMEA de 2025, Google reveló su diseño del Proyecto Deschutes para un rack de 1 MW, que destaca por su ausencia de luces intermitentes y, sobre todo, por su parecido con el motor de un coche bajo el capó. Esto solo es posible con DLC, lo que allana el camino para una densificación continua y, por consiguiente, para la innovación en el hardware de IA.

Del meneo de la cola del centro de datos al meneo de la cola del servidor

El DLC es una de las consideraciones más importantes en esta etapa del avance de la IA, ya que permite el desarrollo de sistemas informáticos más densos y estrechamente acoplados. Si bien no es una tecnología nueva, la mayoría de las implementaciones de DLC anteriores a este año se han realizado en entornos especializados, como las supercomputadoras de laboratorios nacionales.

Durante años, los hyperscalers se han resistido a actualizar las flotas de gigavatios de centros de datos optimizados para la eficiencia de la refrigeración por aire, lo que presionó a los fabricantes de servidores de CPU y GPU para que se mantuvieran dentro de los límites térmicos de refrigeración por aire de 30-40 kW por rack. Al mismo tiempo, Nvidia contaba con diseños de rack de más de 100 kW, pero no se vendían a gran escala hasta que la IA generativa impulsó casos de uso más amplios para la potencia exponencialmente mayor de los clústeres de GPU más grandes. La cola del centro de datos movía al perro del servidor.

Google fue la excepción a la orientación hyperscaler hacia la refrigeración por aire. Empezó a implementar DLC en sus centros de datos en 2018 para respaldar su arquitectura de chips TPU. Esto no sorprende, dado que las innovaciones de Google están a la vanguardia del aprendizaje automático y la IA generativa, en apoyo a su negocio dominante de búsquedas. Al desarrollar sistemas para su propio uso, Google no tuvo el obstáculo de hacer que esos chips fueran comercializables para los clientes y, por lo tanto, probablemente cuente con la mayor flota de DLC a escala multigigavatio en la actualidad.

A medida que la participación de mercado de Nvidia en chips de IA se volvió dominante por derecho propio (estimada en un 70-95 por ciento), en 2024 finalmente tuvieron la influencia para presionar por avances en el nivel del centro de datos y afirmar su arquitectura de referencia para el sistema de rack GB200 NVL72 donde se requeriría DLC (con sistemas de menor densidad aún capaces de vivir en entornos refrigerados por aire).

Así, la situación cambió: en lugar de trabajar a la inversa, partiendo de los límites térmicos de la mayoría de los centros de datos para lograr escalabilidad, Nvidia estaba trazando una nueva línea. Para dar soporte a su hardware de vanguardia, el DLC era imprescindible, no solo un lujo.

Si nos fijamos únicamente en la hoja de ruta de densidad de Nvidia, la proyección de la demanda de refrigeración líquida se acelerará rápidamente, buscando duplicarse por ciclo anual de innovación de productos. Los Blackwell GB300 alcanzarán una densidad máxima de rack de 163 kW a finales de este año, los racks Vera Rubin NVL144 podrían requerir más de 300 kW en 2026, y para 2027, el rack Rubin Ultra NVL576 podría superar los 600 kW por rack, con una mayor densificación prevista para 2028 y años posteriores. El anuncio de Google de diseños de rack de 1 MW indica la probabilidad de que Nvidia también lo consiga.

¿Qué significa DLC para Nvidia? Los centros de datos con DLC se convertirán en el punto de partida para sistemas de computación acelerada cada vez más potentes y densidades de potencia cada vez mayores. Si el líquido de la instalación está presente a gran escala, alcanzar más de 500 kW por rack se basa en la distribución, no en la capacidad. Además, una instalación con DLC también suele admitir hardware refrigerado por aire, pero lo contrario no se cumplirá por mucho tiempo, ya que las soluciones refrigeradas por aire-líquido alcanzarán sus límites este año (cerca de los 100 kW por rack).

Perspectivas de adopción e inversión en DLC

El año pasado, el mercado global de DLC se valoró en 1.850 millones de dólares. Se prevé que, durante la próxima década, alcance los 11.890 millones de dólares, impulsado principalmente por la capacidad de DLC para gestionar el aumento de la densidad de chips.

El valor de DLC para los entornos de centros de datos se intensificará este año y, para 2026, probablemente se considerará el estándar de la industria para instalaciones de vanguardia. Durante este periodo, el sector de los centros de datos pasará del rendimiento simulado de las GPU más recientes de Nvidia a la implementación y las pruebas en condiciones reales. Este cambio será esencial para determinar los métodos de refrigeración más eficaces para soportar racks de mayor densidad.

Se espera que las densidades aumenten junto con el crecimiento de la densidad de transistores en chips, como se observa con el cambio de Nvidia de un ciclo de innovación de dos años a uno de un año. Con esto en mente, podemos esperar que las inversiones en DLC a nivel de centros de datos y hyperscalers probablemente se disparen en los próximos años.

Un crecimiento prometedor exige preparación de la industria

No se puede aprovechar al máximo el DLC sin considerar los cambios de diseño necesarios en la futura infraestructura del centro de datos. Los diseños del campus deben planificarse específicamente para que el DLC sea un componente fundamental.

Debido a la ineficiencia, los centros de datos existentes con sistemas de refrigeración aire-líquido probablemente deban modernizarse, y en muchos casos de implementaciones antiguas, será físicamente imposible satisfacer las altas demandas del DLC. En cualquier caso, el soporte para el DLC será elevado y, en última instancia, estos campus antiguos tendrán límites estrictos de escalabilidad.

Dado que los requisitos de densidad siguen aumentando desde las densidades habituales de los campus de 300 MW hasta cifras muy superiores, las implementaciones de DLC serán las más adecuadas para estos centros de datos construidos específicamente para satisfacer las necesidades únicas de energía y refrigeración de DLC desde el principio. Los centros de datos totalmente nuevos y construidos específicamente podrán soportar las tecnologías más recientes, así como la escala y las densidades futuras previstas. En consecuencia, la capacidad de DLC será uno de los requisitos clave para las «fábricas de IA» que Nvidia menciona con frecuencia.

Los desarrolladores de centros de datos pueden empezar a prepararse ahora, acertando con los aspectos más importantes. Por ejemplo, a medida que avanza la implementación de GPU, deberían centrarse en garantizar un tonelaje bruto adecuado de agua refrigerada para las soluciones de refrigeración por aire y líquido.

Como los mayores compradores de GPU, los hyperscalers también deberán seguir preparándose para la próxima era de refrigeración. Dado que desarrollan sus propios diseños para DLC, deberán liderar la finalización de los mismos. La preparación a nivel de un hyperscaler permitirá a la industria de los centros de datos distribuir mejor los recursos y satisfacer las crecientes densidades a nivel de rack.

Adopción de la próxima generación de centros de datos

Con Nvidia liderando la carrera de las GPU y Google manteniéndose a la vanguardia en IA y ML, su adopción mutua de soluciones DLC sirve como puntos de referencia para determinar dónde debería estar el mercado.

Desbloquear el futuro de la IA no es posible sin analizar detenidamente el diseño de los centros de datos y encontrar maneras de aprovechar al máximo los sistemas críticos, como la refrigeración. La IA lo transforma todo en el centro de datos, y con la refrigeración líquida directa al chip como un segmento clave del mercado, aprovechar su potencial es esencial para el éxito a largo plazo.

(datanceterdynamics.com)

Les estaremos informando con mucho más detalle, en el marco del informe especial: “Soluciones y productos de infraestructura para edificios y ciudades inteligentes (Sistemas BIM y BMS), POL (Passive Optical LAN). Seguridad integrada, video vigilancia y control de acceso. Casos de uso y aplicabilidad de cada solución y producto, incluyendo la colaboración digital (relacionado a realidad virtual sistema BIM) (Gemelos digitales). Buenas prácticas ambientales.», que estamos preparando para nuestra edición 216 y publicaremos en el mes de julio.

Mantente conectado a nuestra revista Channel News Perú, haciendo clic aquí y suscribiéndote a nuestro newsletter para contenido de valor diario.

Digiqole Ad
...

Notas Relacionadas