La preparación para el futuro de la infraestructura de HPC e IA comienza con una refrigeración más inteligente

Por Patrick Scateni, VP of global sales and sustainability evangelist – Hypertec

Hemos llegado a un punto en el que gestionar el calor no es solo un detalle técnico, sino una decisión empresarial fundamental. Hoy en día, la refrigeración se centra en la economía, la sostenibilidad y la supervivencia en un mundo donde las cargas de trabajo de IA escalan más rápido que la infraestructura diseñada para soportarlas.

El enfriamiento por inmersión surge a menudo en estas conversaciones y funciona increíblemente bien: en los lugares correctos y por los motivos correctos.

Donde brilla la inmersión

El enfriamiento por inmersión no es una solución milagrosa, pero resuelve algunos problemas específicos y cada vez mayores que el enfriamiento por aire tradicional e incluso el enfriamiento líquido directo no siempre pueden resolver por sí solos.

En términos de rendimiento bruto, la inmersión ayuda a mantener el silicio funcionando a temperaturas estables, independientemente de la intensidad de la carga de trabajo. Esta consistencia es fundamental no solo para el máximo rendimiento, sino también para un rendimiento predecible y fiable a lo largo del tiempo.

Luego está el rendimiento por vatio, donde la inmersión realmente empieza a destacar. Al eliminar los gastos generales de los enfriadores, las unidades CRAC y la compleja gestión del flujo de aire, todo el sistema se vuelve más eficiente.

Menos energía desperdiciada en ventiladores y manejo del aire significa más energía dedicada al procesamiento real, todo ello sin consumir agua.

En cuanto al costo, depende de lo que se mida. La inmersión ofrece importantes ventajas a largo plazo, aunque puede requerir una inversión inicial ligeramente mayor.

Pero si ampliamos la lente para considerar el costo total de propiedad (incluyendo energía, espacio, rutinas de servicio y longevidad del hardware), es cuando la inmersión demuestra ser la opción más eficiente y rentable.

No todos los racks tienen que lucir como si pertenecieran al centro de datos de un hyperscaler, pero para las organizaciones de HPC e IA que buscan superar los límites de lo que un rack tradicional puede ofrecer, la inmersión ofrece una forma de aprovechar al máximo todo. Esto incluye la computación de la CPU, el almacenamiento flash y la GPU, todo ello en menos espacio con mayor rendimiento, fiabilidad y escalabilidad.

También ofrece simplicidad operativa. Con la inmersión, se eliminan piezas móviles como ventiladores y componentes innecesarios. Es más silencioso, sencillo y fiable, problemas que suelen estar causados por el polvo, la vibración o factores ambientales.

Ciclos de actualización de hardware y preparación para el futuro

El funcionamiento del hardware a menor temperatura y de forma más constante prolonga la vida útil de los servidores. En la práctica, hemos recopilado más de seis años de datos, lo que ha resultado en tasas de fallos más bajas.

De cara al futuro, la preparación para el futuro es una consideración fundamental. A medida que las GPU y los aceleradores de IA evolucionen, las densidades de potencia seguirán aumentando. Las organizaciones que adoptan la inmersión hoy no solo satisfacen las necesidades actuales, sino que invierten para el futuro.

¿Pueden coexistir diferentes métodos de enfriamiento?

Por supuesto. La refrigeración líquida directa (DLC) y la refrigeración por inmersión pueden coexistir, y probablemente lo harán, en infraestructuras de IA a gran escala.

La inmersión es una excelente opción para implementaciones homogéneas y de alta densidad que buscan maximizar la densidad computacional y ofrecer un mayor retorno de la inversión a largo plazo.

El DLC es adecuado para infraestructuras más complejas, como la Nvidia GB200-300. Gestionar entornos mixtos implica considerar cómo equilibrar tanques de inmersión, placas frías y equipos antiguos refrigerados por aire en el mismo espacio.

Modernización sin tiempos de inactividad

Una de las mayores preocupaciones que escuchamos de los operadores es: “¿Cómo modernizo mi infraestructura refrigerada por aire sin arriesgarme a tiempos de inactividad?”. Algunos de los desafíos reales que hemos visto incluyen:

  • Restricciones de espacio físico en los centros de datos tradicionales
  • Energía y fontanería no diseñadas para sistemas líquidos
  • Preocupaciones sobre la garantía del hardware en entornos no estándar
  • La curva de aprendizaje para los equipos operativos que solo han trabajado con aire

Y, sin embargo, están surgiendo soluciones. Los tanques de inmersión modulares, por ejemplo, permiten a los operadores convertir cargas de trabajo específicas a inmersión sin tener que reacondicionar toda una sala de datos. Los proveedores de colocation están empezando a construir suites preparadas para la inmersión. Los fabricantes de hardware se están asociando con proveedores de refrigeración para garantizar la certificación y la garantía.

¿La inmersión se convertirá en la opción predeterminada?

Para que la inmersión se generalice, necesitamos una mayor aceptación de todo el ecosistema. Esto incluye que los fabricantes de GPU y chips prioricen la inmersión desde el principio, no como una idea de último momento. Implica desarrollar estándares y certificaciones globales para que los operadores puedan implementar la inmersión con confianza.

Actualmente, ofrecemos garantías de tres años para hardware en inmersión, pero la industria en general debe alinearse con esto si se pretende escalar su adopción.

Ya sea construyendo infraestructura, vendiendo soluciones o brindando soporte a clientes, ayudamos a las personas a descubrir qué tiene sentido para sus cargas de trabajo, sus presupuestos y sus objetivos a largo plazo.

En definitiva, la refrigeración no se trata solo de bajar las temperaturas. Se trata de mantener las empresas funcionando de forma más inteligente, durante más tiempo y de forma más sostenible.

(datacenterdynamics.com)

Les estaremos informando con mucho más detalle, en el marco del informe especial: “Soluciones y productos de infraestructura para edificios y ciudades inteligentes (Sistemas BIM y BMS), POL (Passive Optical LAN). Seguridad integrada, video vigilancia y control de acceso. Casos de uso y aplicabilidad de cada solución y producto, incluyendo la colaboración digital (relacionado a realidad virtual sistema BIM) (Gemelos digitales). Buenas prácticas ambientales.», que estamos preparando para nuestra edición 215 y publicaremos en el mes de agosto.

Mantente conectado a nuestra revista Channel News Perú, haciendo clic aquí y suscribiéndote a nuestro newsletter para contenido de valor diario.

Digiqole Ad
...

Notas Relacionadas