¿Importa el tamaño de los modelos de lenguaje en la IA generativa?

Las aplicaciones de IA generativa giran en torno al modelo de lenguaje grande o LLM. Estos modelos han sido el centro de atención de la IA generativa desde el lanzamiento de ChatGPT hasta hoy. Es más: han atraído miles de millones en financiación y una ola increíble de innovación. Pero, ¿son tan esenciales como parecen?
Ahora mismo asistimos al auge de múltiples LLM, como los de OpenAI, Anthropic, Google, mientras que otros marchan en paralelo a nuevos proyectos basados en modelos más o SLM. Por definición, éstos son de menor tamaño que los LLM: se entrenan con conjuntos de datos más pequeños y específicos, y pueden utilizarse para cumplir requisitos o tareas más concretos. Al usar menos datos en su entrenamiento, su creación resulta más barata, lo que significa que las empresas pueden crear y entrenar sus propios SLM.
Éstos también pueden funcionar en más lugares. Como requieren menos recursos, pueden operar en entornos periféricos o en dispositivos móviles, en lugar de necesitar una gran cantidad de recursos informáticos como los LLM.
Los SLM también pueden afectar a la forma en cómo los desarrolladores diseñan sus aplicaciones en torno a la IA generativa. Con los LLM, el coste de entrenar el modelo suponía contar con un punto de corte para el conocimiento del modelo teniendo en cuenta el coste del reentrenamiento. En el caso de añadir un contexto más reciente, se añadía por separado, por ejemplo, utilizando búsqueda vectorial y generación aumentada por recuperación, o RAG. Sin embargo, reentrenar los SLM resulta más barato al ser más pequeños, por lo que se puede optar por el reentrenamiento.
Sin embargo, combinar reentrenamiento y el RAG puede ayudar a su sistema de IA generativa a utilizar el material más relevante y similar desde un punto de vista semántico en las respuestas a las solicitudes de los usuarios. Es más, se puede crear un canal para los nuevos datos que se pueden transmitir a su sistema según la rapidez con la que necesite responder su sistema, puede crear. Si queremos que esto funcione en tiempo real es necesario que los datos que se transmiten a nuestros sistemas se conviertan en vectores para que puedan añadirse a la base de datos vectorial. Esto permitiría utilizarlos como parte de las búsquedas de información similar desde un punto de vista semántico casi en tiempo real como parte de su enfoque RAG. Es más, el SLM podría reentrenarse de manera periódica con esos nuevos datos incluidos.
Ventajas de los SLM
La implementación de SLM es ahora una opción para aquellas organizaciones que desean utilizar la IA generativa y también control sus entornos de una manera completa. ¿Por qué se podría necesitar un modelo así? Por ejemplo, quizás quiera controlar de qué datos dispone desde el principio, lo que es el equivalente a una sala limpia digital con todos los ingredientes potenciales que se utilizan para generar resultados a su disposición. Esto también puede ser útil a la hora de auditar las respuestas a las preguntas y recuperar el registro de auditoría completo. Cuando utiliza el LLM de otra empresa, lo único que tendrá es una idea aproximada de los datos que han utilizado para entrenar el modelo. Si usa su propio SLM, puede estar seguro de qué documentos y datos se han incluido.
Si bien éste puede ser útil para aplicaciones de IA generativa más pequeñas o implementaciones de IA periférica, hay otro campo en el que tiene un gran potencial. La IA basada en agentes, la última versión de la IA generativa, utiliza múltiples agentes entrenados para realizar tareas específicas con el fin de producir resultados. De lo que se trata es de crear y apoyar un proceso de principio a fin con múltiples agentes especializados. Mientras que los servicios LLM pueden ser útiles para responder de forma genérica a consultas e interactuar con los usuarios, la IA basada en agentes aprovecha los SLM especializados para proporcionar respuestas más específicas que dan soporte a diferentes pasos de un proceso de principio a fin.
Gracias a diferentes agentes autónomos involucrados en distintos pasos, los SLM pueden desempeñar un papel importante en el diseño de sistemas basados en estos agentes. La razón es que las aplicaciones multiagente pueden utilizar muchos más recursos que las aplicaciones de IA independientes para alcanzar su resultado final. Para procesar una respuesta, una aplicación de IA generativa utilizará un número determinado de tokens para, por ejemplo, integrar solicitudes en vectores. Los tokens corresponden al número de palabras utilizadas en las indicaciones, cuanto más largas y completas sean estas segundas más tokens consumirán.
Cada componente de una aplicación consumirá tokens para responder a una solicitud. Así, su número dependerá de la cantidad de agentes y pasos dentro de un proceso, de tal manera que será mayor para la IA basada en agentes, ya que cada agente creará una respuesta que consume tokens. Luego la pasará al siguiente paso (consumiendo tokens a su vez) para crear la siguiente respuesta (consumiendo tokens de nuevo), antes de crear la respuesta final y enviarla de vuelta al usuario. Según estimaciones de Capgemini, un servicio de agente único costaría alrededor de 0,41 dólares al día para un servicio que realiza una solicitud por minuto en respuesta a un evento de sensor, mientras que un sistema multiagente costaría alrededor de 10,54 dólares, aproximadamente 26 veces más caro.
SLM frente a LLM para la IA agencial
Teniendo en cuenta esta comparación de costes, llega el momento de considerar dos aspectos. En primer lugar, usar SLM en lugar de LLM completos puede reducir de una manera considerable el coste de ese sistema multiagente. Emplear modelos de lenguaje más pequeños y ligeros para cumplir requisitos específicos será más rentable que utilizar LLM para cada paso de un sistema de IA basado en agentes. Se trata de un enfoque basado en la búsqueda del componente adecuado para cada elemento de un sistema multiagente, en lugar de pensar automáticamente que el enfoque ”mejor de su clase” es el más apropiado.
En segundo lugar, el uso de la IA basada en agentes para casos de uso de IA generativa debe adoptarse cuando los procesos multiagente pueden proporcionar más valor por transacción que los modelos más simples de agente único. Aquí, la elección afecta a la manera en que se plantea el precio de su servicio, lo que los clientes esperan de la IA y cómo prestará su servicio en general. Por eso es necesario considerar los elementos técnicos y de arquitectura de la IA a la hora de conseguir el equipo que desea su línea de negocio.
Si bien los agentes de IA simples pueden realizar tareas específicas o automatizar tareas repetitivas, por lo general requieren la intervención humana para completar esas solicitudes. La IA basada en agentes va más allá, pues ofrece una mayor autonomía dentro de los procesos empresariales mediante el empleo de ese enfoque multiagente para adaptarse constantemente a entornos dinámicos. Con la IA basada en agentes, las empresas pueden utilizar la IA para crear, ejecutar y optimizar de forma independiente los resultados en torno al flujo de trabajo de ese proceso empresarial. Por eso, el objetivo es sustituir los procesos empresariales frágiles y estáticos por sistemas de automatización dinámicos y sensibles al contexto.
El futuro de la IA generativa es híbrido
El mundo de la IA generativa ha avanzado con gran rapidez en los últimos años. Aunque se ha realizado una enorme inversión en grandes modelos de lenguaje, la aparición de DeepSeek ha cambiado el debate sobre cómo apoyar las implementaciones de IA generativa. Para muchas organizaciones, los modelos de lenguaje se han convertido en un componente básico de sus aplicaciones de IA generativa. Esta tendencia continuará, y los desarrolladores adoptarán un enfoque híbrido a la hora de usar según qué modelos utilizan y cómo los implementan. Los SLM y los LLM se utilizarán conjuntamente para ofrecer los resultados más relevantes a un coste y un nivel de computación determinados.
¿De qué manera se adaptarán los desarrolladores a este nuevo mundo de SLM, LLM y diferentes modelos? Será necesario realizar más pruebas sobre el rendimiento de las aplicaciones con estos sistemas, de modo que puedan ver cómo funcionan los diferentes SLM y LLM junto con los demás componentes que conforman sus aplicaciones de IA generativa, tanto desde un punto de vista de la relevancia de los resultados como de los perfiles de costes. Cuando salgan nuevos modelos, deberán probarse para ver qué mejoras pueden aportar, mientras que otros elementos como los datos, los pesos de la IA y las integraciones permanecen iguales. Realizar cambios radicales, especialmente con una aplicación no determinista como la IA generativa, conlleva el riesgo de que no se podrá determinar el impacto exacto de cada cambio.
Para facilitar las pruebas, los desarrolladores pueden consultar proyectos de código abierto que se ocupan de la integración entre diferentes componentes como parte del diseño general de las aplicaciones. Proyectos como Langflow facilitan la conexión de servicios de IA generativa como LLM, SLM, almacenes de datos vectoriales y resultados en toda la aplicación. De ahí que la integración sea fundamental a la hora de plantear implementaciones híbridas con múltiples modelos diferentes que pueden ejecutarse de manera simultánea.
Así, resultará más útil visualizar estos procesos como “flujos basados en agentes”, en los que la salida de un agente se convierte en la entrada de otro, y así sucesivamente. Este enfoque visual facilita la creación de sistemas basados en agentes y la gestión de esas integraciones entre elementos a lo largo del tiempo.
De cara al futuro, el mundo de los modelos de lenguaje seguirá evolucionando y aparecerán otros nuevos. Los SLM pueden ayudar a los desarrolladores a ofrecer aplicaciones de IA generativa de forma más eficiente y a convertir proyectos potenciales en implementaciones de producción, especialmente a medida que la IA multiagente y agencial se consolida en casos de uso del mundo real. Tanto los SLM como los LLM desempeñarán un papel importante a la hora de aprovechar muy buenas oportunidades valiosas y, así, garantizar que ofrecemos aplicaciones de IA generativa a niveles rentables.
(computerworld.es)
Les estaremos informando con mucho más detalle, en el marco del informe especial: “Arquitecturas de IA, Machine Learning, Deep Learning, Gemelos digitales y Soluciones de valor de Cloud Computing con innovadores modelos de negocio, soluciones de IOT, IOTI, soluciones de Automatización. Ciberseguridad, Infraestructura de conectividad: redes LAN, Wifi. Buenas prácticas corporativas.», que estamos preparando para nuestra edición 215 y publicaremos en el mes de junio.
Mantente conectado a nuestra revista Channel News Perú, haciendo clic aquí y suscribiéndote a nuestro newsletter para contenido de valor diario.
