¿Ha llegado el fin de la era de los LLM?

Loading

Los grandes modelos de lenguaje (LLM) comenzaron a popularizarse a raíz del lanzamiento de ChatGPT de OpenAI.

De repente, todo el mundo descubrió que la inteligencia artificial (IA) no era sólo una tecnología presente en las tripas de sus móviles, altavoces inteligentes, recomendadores de servicios de streaming de vídeo y música o de ecommerce, etc., sino que cualquier podía hacer uso de ella.

Esa IA generativa es posible gracias a los LLM que hay tras ella, alimentados por ingentes cantidades de datos. “Por ejemplo, Llama 3, de Meta, ya va por unos 400.000 millones de parámetros. Y van a crecer todavía más, porque se piensa que así pueden aparecer capacidades emergentes que ayudarán a mejorar la IA general”, indica Enrique Lizaso, CEO y cofundador de Multiverse Computing.

Esto permite que la IA cada vez sea capaz de hacer más cosas. Pero esta evolución comporta importantes desafíos. “Los LLM de IA se han convertido en herramientas poderosas y transformadoras en prácticamente todos los campos. Sin embargo, como tecnología emergente, presentan algunos retos interesantes”, afirma David Hurtado, jefe de Innovación de Microsoft.

Costes desorbitados

El primer escollo es el elevado coste de entrenamiento de estos modelos. “En primer lugar, el entrenamiento de estos modelos requiere una gran inversión en recursos computacionales y datos, lo que puede ser costoso y complejo. El trabajo aquí se está centrando en hacer más eficientes los modelos para reducir los costes y consumo de recursos”, expone.

“Los costes asociados a la adquisición, entrenamiento y puesta a punto de los LLM pueden ser astronómicos, ya que el entrenamiento de algunos de los principales modelos puede llegar a costar casi 200 millones de dólares, cifra que es prohibitiva para muchas empresas. A esta cifra debemos sumarle la adaptación a los requisitos o datos específicos de cada organización, así como la contratación de profesionales cualificados que puedan ejecutar el proyecto”, especifica Jan Wildeboer,  EMEA evangelist de Red Hat.

Además, los costes no paran de crecer. Lizaso señala que se prevé que la próxima generación de LLM alcance un coste próximo a los 1.000 millones de dólares.

Esto da lugar a rondas de financiación como la que ha cerrado Elon Musk para xAI, en la que ha logrado captar 6.000 millones de dólares.

Consumo energético desaforado

También hay que tener en cuenta el enorme consumo energético de los data centers que mueven estos LLM, con las repercusiones que tiene esto tanto en los costes operativos como en su impacto medioambiental.

“Los LLM necesitan ser reentrenados completamente cada vez que se va a añadir información, lo que supone también un alto coste de energía”, recalca el responsable de Red Hat.

“En algunos países, como en Irlanda, el consumo de los data centers se ha desmadrado. Se ha visto que podrían llegar a suponer el 30% del consumo total de electricidad. Esto está haciendo que se desarrolle legislación que obliga al consumo de energía verde. Hay una presión legislativa y gubernamental para ajustar los consumos energéticos”, expone el CEO de Multiverse Computing.

Las grandes empresas del sector están tomando cartas en el asunto, tal y como ya hemos contado en alguna ocasión. “Reconocemos el impacto energético de estos modelos y estamos comprometidos con su desarrollo y operación sostenibles. Por ello, invertimos en investigación para medir y reducir el uso de energía y la huella de carbono de la IA”, comenta el Innovation lead de Microsoft.

Otros factores

Esos son los principales desafíos a los que se enfrentan los desarrolladores de LLM, pero no son los únicos. “Otro reto interesante es la precisión de los modelos. En determinados contextos muy específicos o técnicos, un LLM puede no ser suficientemente preciso. Y no siempre se mejora con un modelo más grande. Actualmente, estamos invirtiendo muchos recursos en mejorar los procesos de entrenamiento para hacer los modelos más precisos y menos proclives a la alucinación”, detalla Hurtado.

Wildeboer también hace hincapié en las dudas en torno a la transparencia de los LLM, que es uno de los grandes retos de la IA para los próximos años. “Se asemejan a una caja negra impenetrable. Su entrenamiento con miles de millones de datos sin procesar dificulta rastrear el origen de sus respuestas y la lógica detrás de ellas. Esta opacidad genera dudas sobre su fiabilidad, dificulta la explicación de sus decisiones y plantea serias preocupaciones sobre la equidad y la posible perpetuación de prejuicios en áreas sensibles como la justicia o la medicina”.

En una línea similar, el responsable de Microsoft pone el acento en el reto que supone la responsabilidad. “En Microsoft tenemos una metodología muy estricta de RAI (de las siglas en inglés de Responsible AI), guiada por pilares clave como la equidad, fiabilidad, seguridad, privacidad, inclusión, transparencia y responsabilidad. Estos valores se aterrizan en guías y procedimientos para todos los empleados”, subraya.

Alternativas a los LLM

Pese a ello, parece poco probable que nos acerquemos al fin de la era de los LLM. Aunque las empresas tecnológicas son conscientes de dichos desafíos y saben que dificultan la implantación de esta tecnología en las empresas y el desarrollo de casos de uso, por lo que están dando respuestas.

“Las opciones para resolver los retos de los LLM van en dos vías, en paralelo. Por un lado, mejorar consistentemente la eficiencia de los grandes modelos, para que sean cada vez más pequeños y baratos. La segunda es el uso de los modelos de lenguaje pequeños (Small Language Models, SLM)”, afirma Hurtado.

“Los SLM son una solución tremendamente prometedora, dado que utilizan una fracción de los recursos computacionales y consumo energético de los LLM, pero con un rendimiento similar en determinadas tareas”, explica.

“Ambas vías, creación de SLM y mejora de los LLM, van en paralelo y son complementarias. Todo apunta a que el futuro estará compuesto por una combinación de ambos”, añade.

Así lo cree también Lizaso. “Los grandes creadores de modelos, como Meta, OpenAI o Anthropic, han visto esta tendencia. Además de sacar modelos grandes, también lanzan uno intermedio y otros más pequeño”, comenta.

¿Qué están haciendo las tecnológicas?

Siguiendo esta tendencia, Microsoft ha desarrollado Phi-3, “una familia de modelos de lenguaje pequeño que reimagina lo que es posible con este tipo de modelos”, declara Hurtado.

“Phi-3 ha sido diseñado para ser muy eficiente y adaptable, y ofrece un rendimiento excepcional. Phi-3-mini, con 3.800 millones de parámetros, ha demostrado ser muy eficaz en tareas de generación y comprensión de lenguaje, superando a modelos de mayor tamaño. Este modelo es ideal para aplicaciones que requieren respuestas rápidas y precisas en ámbitos concretos, como chatbots de atención al cliente, sistemas de recomendación y asistentes virtuales”, expone.

“Además, Phi-3 ha sido optimizado para funcionar en una amplia gama de dispositivos, desde servidores en la nube hasta dispositivos móviles. Por ejemplo, cuenta con capacidad para operar en un iPhone 15 con un procesador A16 Bionic, logrando una gran fluidez. Esto abre nuevas posibilidades para aplicaciones móviles que requieren procesamiento de lenguaje natural sin depender de la conectividad constante a la nube”, argumenta.

“Otra ventaja clave es la flexibilidad de implementación. Phi-3 puede ser desplegado en la nube, en el edge o en dispositivos locales, lo que permite a las organizaciones elegir la mejor opción según sus necesidades específicas. Esta flexibilidad es especialmente valiosa en entornos donde la privacidad de los datos y la latencia son críticas, como en aplicaciones de salud y finanzas”, agrega.

Finalmente, anota que esta familia de modelos destaca por su capacidad de personalización. “Se ofrecen como modelos abiertos que pueden ser ajustados y afinados con datos específicos del dominio, para mejorar su precisión y relevancia en contextos particulares. Esto permite a las organizaciones adaptar Phi-3 a sus necesidades específicas sin necesidad de grandes inversiones”.

Otra alternativa a los LLM es el enfoque de la IA de Enjambre, basado en el uso de muchos modelos pequeños, entrenados para tareas específicas. “Este enfoque innovador apuesta por la colaboración entre múltiples modelos pequeños, cada uno especializado en una tarea específica. Estos modelos, ya sean desarrollados por la empresa o adquiridos a terceros, se integran en un meta-nivel que actúa como un director de orquesta, coordinando y combinando sus capacidades. De esta manera, se crea una IA modular y versátil, capaz de abordar una gama más amplia de desafíos con mayor precisión y eficiencia”, aclara el responsable de Red Hat.

“Al recibir una consulta, el meta-nivel selecciona estratégicamente qué modelo o combinación de modelos está mejor equipado para proporcionar la respuesta más precisa y relevante. Nosotros vemos que estos modelos más pequeños son más ágiles y flexibles, y que tienen más posibilidades de cumplir con las expectativas de las empresas y con las regulaciones”, valora.

Además, señala que su compañía ha lanzado Red Hat Enterprise Linux AI (RHEL AI), “plataforma de modelos fundacionales que permite a los usuarios desarrollar, probar y ejecutar de manera eficiente modelos de IA generativa para potenciar las aplicaciones empresariales”.

“En RHEL AI unimos a Granite, que es la familia de LLM, con licencia de código abierto, y las herramientas de alineación de modelos InstructLab, basadas en la metodología de Alineación a gran escala para chatbots (LAB). Todo ello, lo hemos empaquetado como una imagen RHEL optimizada y lista para arrancar para despliegues en servidores individuales en la nube híbrida”, especifica.

Y con la vista puesta en el futuro, considera que “los modelos de IA más pequeños, eficientes y creados a medida formarán una mezcla sustancial del stack de TI empresarial, junto con las aplicaciones nativas de la nube”. “Esta infraestructura permitirá a las empresas tener acceso a la IA y desarrollar aplicaciones que se ajusten a las necesidades de sus negocios”, vaticina.

(silicon.es)

Les estaremos informando con mucho más detalle, en el marco del informe especial: “Desarrollo de software: empresarial, corporativo y técnico para la competitividad, BPM (Business Process Modelling), Gestión de Procesos de Negocios (CRM, ERP y CSP…) Data Science, Criptografía, NFT (Non Fungible Token) y Blockchain. Ciberseguridad, VR (Realidad Virtual) y AR (Realidad aumentada), Automatización, Programmability. Drones: aplicabilidad productiva y comercial, Generative AI, SaaS (Software as a service) en el marco de la transformación digital. Software para Comunicaciones Unificadas: para equipos de trabajo, centrales virtuales, tele impresión y Buenas prácticas corporativas”, que estamos preparando para nuestra edición 215 y publicaremos en el mes de octubre.

Mantente conectado a nuestra revista Channel News Perú, haciendo clic aquí y suscribiéndote a nuestro newsletter para contenido de valor diario.

Digiqole Ad

Notas Relacionadas