La revolución del hardware que se avecina: cómo abordar las insaciables demandas de la IA
El último lanzamiento de Sora de OpenAI, un modelo de difusión de texto a video, convierte a los usuarios en magos que pueden crear mundos visuales mágicos, videos de 20 segundos a 1080p, guiados por elegantes herramientas de creación.
El lanzamiento es solo el último ejemplo de modelos de IA generativos que aumentan la apuesta en términos de requisitos de centros de datos de IA, tanto en términos de rendimiento como de demanda de recursos.
Las previsiones de consumo energético de la IA en Estados Unidos son alarmantes. Las consultas de IA actuales requieren aproximadamente diez veces más electricidad que las consultas tradicionales de Google: una solicitud de ChatGPT consume diez veces más vatios-hora que una solicitud de Google. Una CPU típica en un centro de datos utiliza aproximadamente 300 vatios por hora (Electric Power Research Institute), mientras que una GPU Nvidia H100 utiliza hasta 700 vatios por hora, un consumo similar al de un hogar medio en Estados Unidos al mes.
Los avances en las capacidades de los modelos de IA y el mayor uso de parámetros siguen impulsando el consumo de energía. Gran parte de esta demanda se concentra en centros de datos, ya que empresas como Amazon, Microsoft, Google y Meta construyen instalaciones cada vez más gigantescas en todo el país.
Se estima que el consumo de electricidad de los centros de datos de Estados Unidos crecerá un 125 por ciento para 2030, lo que supondrá el 9 por ciento de toda la electricidad nacional. En 2018, nuestras computadoras consumían solo entre el 1 y el 2 por ciento del suministro eléctrico mundial; esta cifra aumentó al 4 o 6 por ciento en 2020, y se estima que para 2030 alcanzará entre el 8 y el 21 por ciento. La energía de los centros de datos y las emisiones de carbono se duplicaron entre 2017 y 2020. Se estima que para 2028, la IA representará alrededor del 19 por ciento de la demanda de energía de los centros de datos.
Incluso antes de que ChatGPT apareciera en escena, los centros de datos se enfrentaban a un crecimiento significativo en las demandas de rendimiento del hardware para el procesamiento, la gestión y el almacenamiento de datos. Hoy, con la IA establecida como el próximo gran cambio tecnológico del mundo, ya que afectará a todas nuestras vidas, el aumento del uso hace que la urgencia sea mayor a medida que el consumo de energía de la infraestructura subyacente aumenta a tasas agresivas e insostenibles.
Dada la vertiginosa proliferación de aplicaciones de IA, ¿cómo pretende el ecosistema de empresas de tecnología profunda abordar los crecientes desafíos?
La realidad es que para habilitar la IA a escala (y de manera sustentable) será necesario rediseñar o reemplazar la mayor parte del hardware y el software para los datos, lo que implicará repensar los centros de datos de IA de próxima generación desde cero.
Uno de los factores más importantes para ello se debe a la evolución de las cargas de trabajo de computación de la IA. Para quienes quizás no estén familiarizados con ella, la computación para la IA tiene tres elementos principales: preprocesamiento, entrenamiento e inferencia.
El preprocesamiento de datos implica organizar un gran conjunto de datos antes de poder hacer algo con ellos, lo que puede implicar etiquetarlos, limpiarlos o estructurarlos. Una vez procesados ??los datos, se puede comenzar a entrenar a la IA, algo similar a enseñarle a interpretar los datos. La inferencia se convierte en la tarea principal una vez que se entrena el modelo, durante la cual el modelo de IA se ejecuta en respuesta a las consultas del usuario.
En 2023, el entrenamiento de IA constituía la mayoría del procesamiento de IA en una proporción de más de 2:1. Pero a medida que los modelos de IA maduren y se implementen de manera generalizada, la inferencia superará rápidamente a la IA en la mayoría del procesamiento de IA en centros de datos y se estima que superará al entrenamiento de IA en una proporción de 6:1 para 2030.
Muchos de los centros de datos actuales se construyeron y optimizaron para cargas de trabajo tradicionales, como la nube, la nube híbrida y las cargas de trabajo de bases de datos SaaS, que se abordaron mediante servidores dedicados. El entrenamiento de IA se adapta bastante bien a este tipo de implementaciones, que suelen implicar la asignación de servidores dedicados. Pero a medida que avanzamos hacia las cargas de trabajo de IA del futuro, debemos repensar una arquitectura para la inferencia en la nube que pueda ofrecer un consumo de energía y una latencia mucho menores, incluida una mayor implementación Edge que cumpla con los requisitos de los usuarios.
Esto requerirá un replanteamiento completo de la arquitectura del centro de datos para respaldar una inferencia eficiente basada en la nube, lo que requiere una evolución importante en áreas como los chips ASIC básicos, la memoria de alto ancho de banda, la interconexión y el ecosistema de software de IA. Veremos avances rápidos en nuevas arquitecturas de chips, redes avanzadas, materiales, empaquetado y más.
Con toda la innovación necesaria, ¿de dónde vendrá y se verán afectados los grandes actores del sector de infraestructura?
Si bien las grandes empresas tecnológicas tienen sin duda la ventaja de contar con una posición dominante y de contar con una ventaja de financiación, el ecosistema de empresas emergentes desempeñará un papel absolutamente crucial a la hora de impulsar la innovación necesaria para hacer posible el futuro de la IA. Las grandes empresas tecnológicas que cotizan en bolsa suelen tener dificultades para innovar a la misma velocidad que las empresas emergentes más pequeñas y ágiles. En respuesta a los accionistas, suelen intentar evitar perturbar su propia franquicia y se basan en la innovación interna, en lugar de en el desarrollo basado en principios básicos y en la voluntad de optimizar en la capa fundamental. Si se apoyan en asociaciones o adquisiciones de empresas en fase inicial para internalizar la innovación, es cuando los equipos pueden sortear el sesgo del NIH.
Sin embargo, en el mundo de las empresas emergentes, estamos viendo que la innovación necesaria comienza a nivel de silicio, que se financia y se construye. En el ámbito de la interconexión de centros de datos, por ejemplo, Eliyan ha creado una arquitectura optimizada que densifica la red, lo que hace que la transmisión de bits entre los nodos de computación y de memoria sea más ágil, consuma menos energía y sea menos costosa. La tecnología de Eliyan se implementa tanto a través de chiplets independientes como de bloques IP diseñados en silicio asociado para rediseñar fundamentalmente la red a nivel de sistemas. Al superar el cuello de botella de la memoria de E/S, el enfoque de Eliyan ofrece una mejora general de 10 veces en el rendimiento de la IA.
En el ámbito de la computación, Recogni ha desarrollado un sistema de inteligencia artificial generativa especializado, diseñado específicamente para la inferencia en centros de datos. La arquitectura del conjunto de instrucciones de la empresa utiliza un enfoque matemático logarítmico de vanguardia que permite a su sistema convertir los cálculos de matrices de multiplicación en sumas, lo que reduce la complejidad computacional y hace que sus chips sean mucho más pequeños, rápidos y eficientes. Se prevé que este enfoque sea revolucionario en comparación con la inferencia basada en plataformas de GPU de Nvidia.
Estos son solo dos ejemplos del creciente número de empresas emergentes en este espacio a medida que la financiación continúa llegando en masa de los inversores, alcanzando más de 55 000 millones de dólares hasta el tercer trimestre de 2024. Por supuesto, el éxito nunca está garantizado en el mundo de las empresas emergentes, y ciertamente no en un sector que atraviesa una oleada de competencia y expansión.
Lo que sí sabemos es que no podemos permitirnos el lujo de no invertir en el tipo de innovación necesaria para crear un futuro sostenible para la IA. El futuro de la industria y de nuestro planeta dependen de ello.
(datacenterdynamics.com)
Les estaremos informando con mucho más detalle, en el marco del informe especial: “Soluciones de infraestructura de Data centers y edge computing, componentes activos (UPS, AAC, generadores, tableros eléctricos, PDU) y pasivos (cables, gabinetes, pisos, accesorios, conectores), ciberseguridad, seguridad (perimétrica y de data) y controles (cámaras, extinguidores de gas, tableros de acceso). Energía limpia: generadores solares de energía para Data centers. Equipamiento integral para y hacia la nube. Cableado y gestión de cableado estructurado. Buenas prácticas ambientales», que estamos preparando para nuestra edición 212 y publicaremos en el mes de enero.
Mantente conectado a nuestra revista Channel News Perú, haciendo clic aquí y suscribiéndote a nuestro newsletter para contenido de valor diario.