La visión de red de NVIDIA para el entrenamiento y la inferencia

Loading

Los trazos generales sobre cómo construir un gran clúster de entrenamiento de IA están bastante definidos: junta tantas GPU como sea posible, llénalas con redes rápidas e incorpora tantos datos como sea posible.

Pero, a medida que la IA se prepara para entrar en su era de inferencia, cómo debería ser un centro de datos construido para ese desafío es motivo de gran debate.

Algunos enfoques de modelos de IA generativos han optado por destilar el modelo a su forma más pequeña para que pueda caber en un dispositivo como un teléfono, eliminando la necesidad de interactuar con un centro de datos y solo enviando solicitudes más complejas, así como datos para entrenamiento futuro.

Otros encajan en GPU individuales o en racks parciales, y las empresas esperan que la creciente ola de IA ayude a proporcionar a Edge su tan necesaria aplicación revolucionaria.

Pero para el vicepresidente senior de redes de Nvidia, Kevin Deierling, la adopción de modelos de razonamiento por parte de la industria de la IA generativa apunta a un enfoque diferente a la inferencia, uno que se parece mucho a los compactos grupos de entrenamiento de la actualidad.

“No estoy seguro de que la industria de los centros de datos comprenda completamente el impacto de los modelos de razonamiento”, declara . “Sin duda, existen cargas de trabajo de IA, como robots o coches autónomos, que requieren inferencias extremadamente rápidas y, por lo tanto, deben estar muy cerca de donde se esté produciendo. Para esas cargas de trabajo, sin duda se realizará directamente en el Edge o en el dispositivo, y puede tratarse de una computación relativamente pequeña y, además, estar dispersa en gran cantidad”.

Pero, para los modelos de razonamiento de gran tamaño, se requerirá una escala significativa.

Nvidia, que obviamente se beneficia de una mayor necesidad de escala cada vez mayor, cree que el mercado de IA generativa ha evolucionado en tres fases de carga de trabajo.

Primero está la fase de preentrenamiento, donde entrenamos los modelos base, explica Deierling. A partir de ahí, pasamos a la fase de posentrenamiento, donde los modelos empiezan a pensar, continúa. «Así que, para enseñar a los modelos a pensar: se empieza con 20 petabytes de datos y luego se avanza a cientos de petabytes, o incluso un billón en términos de parámetros del modelo. Incluso podemos posentrenar modelos multimedia con visualización, lo que amplía la escala».

Pero la fase más interesante viene a continuación. Conocida como escalamiento en tiempo de prueba, dedica sustancialmente más recursos computacionales durante la fase de inferencia para mejorar el rendimiento. El modelo puede simular múltiples soluciones o respuestas y seleccionar la mejor a medida que razona una respuesta.

«Lo interesante es que estamos pasando de la inferencia única, donde se hace una pregunta y se obtiene inmediatamente una respuesta a partir de un modelo base entrenado previamente, a estos modelos de razonamiento», explica Deierling.

El modelo de razonamiento lo resuelve, analiza los tokens. Y la cuestión es que la cantidad de procesamiento para la inferencia es enorme. Incluso los modelos más pequeños de los que hablamos (671 mil millones de parámetros para DeepSeek R1) son un modelo enorme que no cabe en una sola GPU. Se necesitan una docena de GPU.

Cuando esto se utiliza para el razonamiento agente, donde cada agente tiene su propia base de datos de información y completa de forma autónoma tareas complejas (como se usa en la investigación profunda de OpenAI), el requisito de GPU crece cada vez más.

“Vemos la escalabilidad de la inferencia como algo inesperado”, dice Deierling. “Incluso hace un año en Nvidia, me encontraba en una especie de batalla contra la gente que decía: ‘Va a ser una sola prueba, un solo nodo: Haz la inferencia y obtén una respuesta’. Y estamos viendo que no es así en absoluto”.

Esta, afirma, es la dirección en la que se están moviendo los principales clientes de IA de Nvidia. «Construyen clústeres de entrenamiento a gran escala, pero eso representa los gastos de su cuenta de resultados. La inferencia representa los ingresos, y ahí es donde generan ingresos».

Existía la idea de tener un clúster de entrenamiento y luego un clúster de inferencia, pero no lo vemos en la práctica. Lo que vemos es que construyen un clúster gigante para entrenar sus modelos base, y luego lo toman todo o parte de él y lo usan para la inferencia.

Al principio, dice, la gente pensó: «Va a ser una exageración, no necesitamos redes para la inferencia, podemos simplemente ejecutarlo en cajas individuales», pero, dice, «resulta que la inferencia necesita una gran cantidad de redes por todo tipo de razones».

Ahora, cree que: “Vamos a ver clústeres de entrenamiento utilizados para inferencias”.

Eso, por supuesto, significa que los centros de datos de inferencia cada vez más grandes enfrentarán el mismo problema que los de entrenamiento: el del consumo de energía.

“Si tenemos 100 000 GPU, o un millón, escalando para la inferencia, debemos prestar mucha atención al presupuesto de energía”, afirma Deierling. “Ahí es donde entra en juego el CPO, ya que proporciona un enorme beneficio energético”.

Anunciados a principios de este año, los conmutadores ópticos co-empaquetados (CPO) de Nvidia con fotónica de silicio integrada están diseñados para reducir radicalmente las demandas de energía de los equipos de red, abriendo convenientemente más capacidad para más GPU.

“Lo que hemos descubierto es que algunos de nuestros clientes tienen mucho dinero”, dice Deierling, describiendo un problema que a otras empresas les encantaría tener. “Pueden permitirse comprar más, pero la limitación es precisamente el presupuesto energético”.

Mientras la industria busca más ubicaciones con energía e invierte en infraestructura energética, el CPO busca aprovechar al máximo la disponibilidad. «En la medida en que podamos ahorrar entre un 30% y un 50% de la energía de interconexión al cambiar de óptica tradicional a CPO, ese es el motor», afirma Deierling. «Hablamos de un ahorro de energía de decenas de megavatios en un centro de datos gigante».

Nvidia cree que una segunda ventaja es que debería aumentar la fiabilidad. Gilad Shainer, vicepresidente sénior de redes de Deierling, explica que: «Por cada GPU que se instala en un centro de datos, se necesitan seis transceptores. Por lo tanto, la cantidad de componentes en el centro de datos crece rápidamente y, obviamente, cuantos más componentes se tengan, más elementos pueden fallar con el tiempo».

Los componentes que fallen deberán reemplazarse, pero eso también supone un riesgo. «Por ejemplo, al reemplazar un transceptor, uno de los defectos que tenemos como humanos es que nuestros dedos tienen una dimensión», dice Shainer. «Al colocar un transceptor en una infraestructura informática muy densa, se tocan otros transceptores, y al tocar otros elementos, se pueden generar problemas en ellos».

Con el CPO, el transceptor externo se integra en el propio encapsulado, lo que reduce cuatro veces el número de láseres. «Así que cientos de miles de transceptores ya no son necesarios».

“Se reduce la intervención humana, se reduce drásticamente la cantidad de componentes, se aumenta la resiliencia y se puede aumentar la capacidad total porque se reduce el consumo de energía”, añade.

Por ahora, las ambiciones de Nvidia en fotónica de silicio se centran en el nivel de conmutación para las comunicaciones de rack a rack. «Utilizaremos cobre mientras sea posible [dentro del rack] con NVLink y ampliaremos la escala», afirma Deierling. «En algún momento, en el futuro, es posible imaginar que todo se vuelva óptico».

A través de interconexiones de centros de datos ópticos, los centros de datos ya se están comunicando entre sí para realizar ejecuciones de entrenamiento de múltiples clústeres.

«Lo que vemos es que, en los centros de datos más grandes del mundo, hay un centro de datos y otro centro de datos y otro centro de datos», dice. «Por lo tanto, la discusión interesante es: ¿Necesito 100 metros? ¿Necesito 500 metros? ¿Necesito una interconexión de un kilómetro entre centros de datos?»

Deierling no quiso decir cuál es ese límite, aunque la velocidad de la luz es el limitador definitivo tanto para la escala de entrenamiento como para la de inferencia.

Para inferir, la latencia se suele usar como razón para mantener las GPU cerca del usuario. «Pero si hay 200 milisegundos de latencia, ni siquiera la notamos», afirma Deierling, restando importancia a las preocupaciones. «Los humanos no la notamos».

Lo importante son las cargas de trabajo de las agencias, donde las IA se comunican con otras IA. «Necesitamos latencias de submilisegundos y conectividad de red entre los dispositivos», afirma, lo cual puede ocurrir dentro de las mismas instalaciones.

«Ese último salto desde un centro de datos centralizado puede ser un poco importante», dice. No se puede agravar.

No puedo tener un flujo de trabajo de inferencia de agencia que vaya y venga de California a Nueva York una docena de veces porque la latencia se acumula. Por lo tanto, creo que las cargas de trabajo de inferencia de agencia se realizarán en un centro de datos centralizado, pero podemos gestionar un salto por usuario y adaptarnos a eso.

(datacenterdynamics.com)

Les estaremos informando con mucho más detalle, en el marco del informe especial: “Arquitecturas de IA, Machine Learning, Deep Learning, Gemelos digitales y Soluciones de valor de Cloud Computing con innovadores modelos de negocio, soluciones de IOT, IOTI, soluciones de Automatización. Ciberseguridad, Infraestructura de conectividad: redes LAN, Wifi. Buenas prácticas corporativas.», que estamos preparando para nuestra edición 215 y publicaremos en el mes de junio.

Mantente conectado a nuestra revista Channel News Perú, haciendo clic aquí y suscribiéndote a nuestro newsletter para contenido de valor diario.

Digiqole Ad
...

Notas Relacionadas