Después de los LLM y los agentes, la próxima frontera de la IA: los modelos de lenguaje de vídeo

Loading

Los vídeos virales de Tesla muestran a su robot humanoide Optimus sirviendo bebidas a los invitados. Se trata de un anticipo de la IA en el mundo real que una nueva innovación, conocida como modelos del mundo, aspira a hacer más fiable. Por ejemplo, los robots humanoides podrán orientarse mejor y servir bebidas personalizadas a las personas con mayor precisión.

Los modelos del mundo —a los que algunos se refieren también como modelos de lenguaje de vídeo— representan la nueva frontera de la inteligencia artificial, tras el éxito de ChatGPT y, más recientemente, de los agentes de IA. Mientras que la IA actual se centra de manera principal en resultados digitales, los modelos del mundo permitirán mejorar los resultados físicos.

Se trata de modelos diseñados para ayudar a los robots a comprender el entorno físico que los rodea, lo que les permite rastrear, identificar y memorizar objetos. Además, al igual que los humanos planifican su futuro, los modelos del mundo permiten a los robots anticipar lo que ocurrirá a continuación y planificar sus acciones en consecuencia.

“Si pensamos en cómo comenzó la IA generativa, la diferencia con los modelos del mundo es que estos necesitan saber qué es realmente posible”, reconoce TJ Galda, director sénior de gestión de producto de Nvidia para Cosmos, un modelo del mundo.

Más allá de la robótica, los modelos del mundo pueden simular escenarios reales. Es más, podrían utilizarse para mejorar las funciones de seguridad de los vehículos autónomos o para simular una planta industrial con fines de formación de empleados.

Según Deepak Seth, director analista de Gartner, los modelos del mundo combinan la experiencia humana con la IA en el mundo real. “Esta experiencia humana —lo que vemos y lo que sucede a nuestro alrededor— forma parte del modelo del mundo, algo de lo que carecen actualmente los modelos lingüísticos”, explica Seth.

Y si bien los modelos de IA actuales y los grandes modelos de lenguaje (LLM) no pueden ir más allá del ámbito digital, los modelos del mundo harán posible una colaboración más estrecha entre humanos e IA en el mundo físico. Nvidia sostiene a partir de un estudio reciente de Morgan Stanley que la población de robots humanoides podría alcanzar los 1.000 millones en 2050.

Además del modelo Cosmos de Nvidia, DeepMind (Google) ha desarrollado un modelo del mundo denominado Genie 3. Estos modelos emplean matemáticas complejas y simulaciones físicas para ayudar a los robots a comprender, anticipar y planificar acciones en el mundo real, tales como desplazarse por una habitación o cargar un lavavajillas.

Las cámaras y los sensores proporcionan a los robots información visual y física sin procesar sobre su entorno. Los modelos del mundo pueden combinarse con sistemas multimodales para interpretar comandos visuales o basados en imágenes antes de ejecutar una tarea.

Tal y como defiende Kenny Siebert, ingeniero de investigación en IA en Standard Bots, “en la IA física, este modelo tendría que capturar la geometría visual en 3D y las leyes físicas —gravedad, fricción, colisiones, etc.— que intervienen en la interacción con todo tipo de objetos en entornos arbitrarios”.

Los modelos del mundo ayudan a los robots a comprender y evaluar las consecuencias de sus acciones. Algunos generan breves simulaciones, similares a vídeos, de los posibles resultados en cada paso, lo que permite elegir la mejor acción posible.

En opinión de Gilda, “la diferencia con los modelos del mundo es que no basta con predecir las palabras de un cartel o los píxeles que aparecerán a continuación; es necesario comprender realmente lo que puede suceder”. Por ejemplo, un robot podría leer señales como “stop” o “zona peligrosa” en una fábrica o en una carretera y entender que debe actuar con extrema precaución.

A lo que Gilda añade: “Si estás construyendo un coche, un robot o cualquier sistema que introduzca la IA en el espacio físico compartido con personas, debes estar completamente seguro de que es seguro y comprender cómo va a comportarse”.

Siebert es de la opinión de que los modelos del mundo son sólo una de las herramientas que se utilizarán para desplegar robots en el mundo real y seguirán evolucionando. No obstante, presentan problemas similares a los de ChatGPT y los generadores de vídeo, como las alucinaciones y la degradación del rendimiento. Trasladar estas alucinaciones al mundo físico podría causar daños, por lo que los investigadores trabajan activamente para mitigar estos riesgos.

Un nuevo modelo general del mundo llamado PAN permite a los robots realizar “experimentos mentales” y probar múltiples secuencias de acciones en simulaciones seguras y controladas. PAN crea una memoria interna y mantiene la coherencia sobre cómo deben cambiar las escenas.

La robótica no es el único ámbito de aplicación de PAN, desarrollado por investigadores de la Universidad Mohamed bin Zayed de Inteligencia Artificial. También podría utilizarse en conducción autónoma, simulaciones de seguridad y simulaciones prolongadas del mundo real que “predicen y razonan sobre cómo evoluciona el mundo en respuesta a las acciones”, según explican los investigadores en el artículo que describe el modelo.

PAN se inspira en el comportamiento humano: primero imagina, luego visualiza y por último planifica acciones, tratando de comprender la relación causa-efecto antes de generar un vídeo. Las acciones típicas utilizan entradas de fotogramas visuales combinadas con lenguaje natural.

A continuación, genera simulaciones de vídeo más largas y coherentes, diseñadas para que las escenas se mantengan consistentes a lo largo del tiempo, en lugar de derivar en resultados poco realistas.

Por el contrario, los modelos actuales de generación de vídeo no mantienen adecuadamente la relación causa-efecto ni la estabilidad temporal y estructural, perdiendo coherencia en secuencias largas. “Los modelos de generación de vídeo existentes suelen producir segmentos únicos y no interactivos», señalan los investigadores.

Entre los modelos de generación de vídeo actuales se encuentran Veo-3 de Google y Sora de OpenAI, que la compañía describe como un “simulador del mundo”.

“En comparación, PAN demuestra una capacidad superior para simular con precisión la evolución del mundo impulsada por la acción”, afirman los investigadores, frente a otros generadores de vídeo y modelos del mundo de código abierto.

Entre los principales avances de PAN destaca la predicción latente generativa (GLP), que permite al modelo imaginar y visualizar estados futuros. Además, las mejoras estructurales —denominadas por los investigadores Causal Swin-DPM— mantienen la coherencia del vídeo a lo largo del tiempo, al tiempo que reducen el ruido y la incertidumbre.

Siebert concluye que los modelos del mundo seguirán mejorando. “Observamos múltiples casos de uso potenciales, como la evaluación en simulación, la generación de datos de entrenamiento de cola larga y la destilación en modelos más pequeños con limitaciones de hardware. A medida que estos modelos evolucionen, esperamos que la lista de aplicaciones crezca más allá de lo que hoy podemos anticipar”.

(computerworld.es)

Les estaremos informando con mucho más detalle, en el marco del informe especial: “Ciberseguridad basada en AI, Ciberseguridad convencional, (Data centers, redes y dispositivos). Ciberseguridad multinube, Ciberseguridad en universo hiperconectado, Arquitecturas de Ciberseguridad basadas en AI», que estamos preparando para nuestra edición 217 y publicaremos en el mes de enero.

Mantente conectado a nuestra revista Channel News Perú, haciendo clic aquí y suscribiéndote a nuestro newsletter para contenido de valor diario.

Digiqole Ad
...

Notas Relacionadas