Robustecer cada vez más los modelos de IA no es el camino para hacerlos más poderosos

Loading

Un nuevo estudio del Instituto de Tecnología de Massachusetts (MIT) sugiere que los modelos de Inteligencia Artificial más grandes e intensivos desde el punto de vista computacional pronto podrían ofrecer rendimientos decrecientes en comparación con los modelos más pequeños. Al comparar las leyes de escalado con las continuas mejoras en la eficiencia de los modelos, los investigadores descubrieron que podría resultar más difícil obtener un mayor rendimiento de los modelos gigantes, mientras que el aumento de la eficiencia podría hacer que los modelos que funcionan con hardware más modesto fueran cada vez más capaces en la próxima década.

«En los próximos cinco a diez años, es muy probable que las cosas empiecen a estrecharse», afirma Neil Thompson, informático y profesor del MIT que ha participado en el estudio.

Los saltos en eficiencia, como los observados con el modelo de costo extraordinariamente bajo de DeepSeek en enero, ya han servido de golpe de realidad para la industria de la IA, acostumbrada a consumir cantidades ingentes de computación.

Tal y como están las cosas, un modelo de frontera de una empresa como OpenAI es actualmente mucho mejor que un modelo entrenado con una fracción del cálculo de un laboratorio académico. Aunque la predicción del equipo del MIT podría no cumplirse si, por ejemplo, nuevos métodos de entrenamiento como el aprendizaje por refuerzo producen resultados sorprendentes, sugieren que las grandes empresas de IA tendrán menos ventaja en el futuro.

Hans Gundlach, investigador científico del MIT que dirigió el análisis, se interesó por la cuestión debido a la naturaleza difícil de manejar de los modelos de vanguardia. Junto con Thompson y Jayson Lynch, otro investigador del MIT, trazó un mapa del rendimiento futuro de los modelos de vanguardia en comparación con los construidos con medios computacionales más modestos. Gundlach asegura que la tendencia prevista es especialmente pronunciada en el caso de los modelos de razonamiento que están ahora de moda, que dependen más del cálculo adicional durante la inferencia.

Thompson indica que los resultados demuestran el valor de perfeccionar un algoritmo y de aumentar la capacidad de cálculo. «Si se gasta mucho dinero en el entrenamiento de estos modelos, se debería dedicar una parte a desarrollar algoritmos más eficientes, porque eso puede ser muy importante», añade.

El estudio es especialmente interesante dado el auge actual de la infraestructura de IA (¿o deberíamos decir «burbuja»?), que muestra pocos signos de desaceleración.

OpenAI y otras empresas tecnológicas estadounidenses han firmado acuerdos por valor de cientos de miles de millones de dólares para construir infraestructuras de IA en Estados Unidos. «El mundo necesita mucha más computación», proclamó esta semana el presidente de OpenAI, Greg Brockman, al anunciar una asociación entre la empresa y Broadcom para chips de IA personalizados.

Cada vez son más los expertos que cuestionan la solidez de estos acuerdos. Aproximadamente el 60% del costo de construcción de un centro de datos se destina a las GPU, que tienden a depreciarse con rapidez. Las asociaciones entre los principales actores también parecen circulares y opacas.

Jamie Dimon, CEO de JP Morgan, es el último gran nombre de las finanzas en lanzar una advertencia, en declaraciones a la BBC la semana pasada. «El nivel de incertidumbre debería ser mayor en la mente de la mayoría de la gente».

La fiebre del oro de la infraestructura de IA no consiste únicamente en construir modelos más capaces. OpenAI está apostando efectivamente a que la demanda de nuevas herramientas de IA generativa crecerá exponencialmente. La empresa también puede estar buscando disminuir su dependencia de Microsoft y Nvidia y convertir su enorme valoración de 500,000 millones de dólares en infraestructura que pueda diseñar y personalizar.

Aun así, parece prudente que la industria utilice análisis como el que ha debutado desde el MIT para explorar cómo pueden evolucionar los algoritmos y el hardware en los próximos años.

El auge de la construcción que ahora apuntala gran parte de la economía estadounidense también puede tener consecuencias para la innovación de este país. Al invertir tanto en GPU y otros chips especializados para el aprendizaje profundo, las empresas de IA podrían perder nuevas oportunidades que surgirían de la exploración de ideas procedentes de los márgenes del mundo académico, como alternativas al aprendizaje profundo, diseños de chips novedosos e incluso enfoques como la computación cuántica. Al fin y al cabo, es de ahí de donde proceden los avances actuales de la IA.

(wired.com)

Les estaremos informando con mucho más detalle, en el marco del informe especial: “Ciberseguridad basada en AI, Ciberseguridad convencional, (Data centers, redes y dispositivos). Ciberseguridad multinube, Ciberseguridad en universo hiperconectado, Arquitecturas de Ciberseguridad basadas en AI», que estamos preparando para nuestra edición 217 y publicaremos en el mes de octubre.

Mantente conectado a nuestra revista Channel News Perú, haciendo clic aquí y suscribiéndote a nuestro newsletter para contenido de valor diario.

Digiqole Ad
...

Notas Relacionadas