Meta trabaja en modelos de lenguaje pequeños para smartphones y dispositivos móviles

Loading

Meta, la compañía matriz de Facebook, Instagram y Whatsapp, está desarrollando modelos de lenguaje pequeños compatibles con smartphones y otros dispositivos móviles, con la intención de ejecutarlo en aplicaciones instaladas en ellos. En su creación, además de centrarse en el equipo en el que se utilizará, están trabajando para limitar su consumo de energía durante las tareas de inferencia. Así lo manifiesta un estudio publicado por un grupo de investigadores de la compañía.

A diferencia de los modelos grandes de lenguaje, los considerados pequeños tienen una cantidad de parámetros, que son los elementos que ayudan a los modelos a decidir entre las distintas respuestas que puede dar a las preguntas, notablemente menor. Cuantos más parámetros tienen, mayor infraestructura de computación necesitan para funcionar. De ahí la conveniencia de desarrollar modelos más pequeños para equipos móviles.

Mistral, por ejemplo, está desarrollando modelos pequeños de lenguaje con algo más de tres mil millones de parámetros. Microsoft, con Phi-2, también se ha adentrado en este terreno. Pero en Meta creen que se pueden desarrollar modelos eficaces con menos de mil millones. Con ellos se podría extender la adopción de la IA generativa a casos de uso que implicasen el uso de smartphones y tablets, cuya potencia de computación es muchísimo menor que la de los servidores de los centros de datos.

Según el estudio publicado por los investigadores de Meta, han llevado a cabo diversos experimentos con modelos de distintas arquitecturas y 125 y 300 millones de parámetros. De ellos han concluido que los modelos que dan más prioridad a la profundidad que a la amplitud mejoran su rendimiento general. Se trata de un hecho contrario a las creencias más extendidas en relación con los modelos de lenguaje, que se centran en destacar el papel de los datos y de la cantidad de parámetros para determinar la calidad del modelo.

Los investigadores señalan a la arquitectura del modelo como una de las claves para el funcionamiento adecuado de los modelos. de lenguaje que tienen menos de mil millones de parámetros. Así, en su opinión, los modelos de 125 y 350 millones de parámetros, a los que llaman MobileLLM  (modelos grandes de lenguaje móviles), son igual de eficaces que los modelos grandes de lenguaje, como Llama 2, en la gestión de conversaciones, así como en tareas que impliquen llamadas a APIs. Además, destacan las capacidades de los modelos pequeños en casos de uso comunes realizados en dispositivos.

Por ahora, el par de modelos Mobile LLM no están disponibles para uso público en ninguno de los servicios y productos de Meta, aunque los investigadores que los han creado han puesto a disposición de quien los quiera consultar tanto su código fuente. como los datos empleados con ellos.

(muycomputerpro.com)

Les estaremos informando con mucho más detalle, en el marco del informe especial: “Desarrollo de software: empresarial, corporativo y técnico para la competitividad, BPM (Business Process Modelling), Gestión de Procesos de Negocios (CRM, ERP y CSP…) Data Science, Criptografía, NFT (Non Fungible Token) y Blockchain. Ciberseguridad, VR (Realidad Virtual) y AR (Realidad aumentada), Automatización, Programmability. Drones: aplicabilidad productiva y comercial, Generative AI, SaaS (Software as a service) en el marco de la transformación digital. Software para Comunicaciones Unificadas: para equipos de trabajo, centrales virtuales, tele impresión y Buenas prácticas corporativas”, que estamos preparando para nuestra edición 215 y publicaremos en el mes de septiembre.

Mantente conectado a nuestra revista Channel News Perú, haciendo clic aquí y suscribiéndote a nuestro newsletter para contenido de valor diario.

Digiqole Ad

Notas Relacionadas