OpenAI estrena ChatGPT Agent
Isa Fulford, directora de investigación del nuevo agente ChatGPT de OpenAI, necesitaba pedir un montón de pastelillos, así que le pidió a la herramienta de IA que lo hiciera por ella. «Fui muy específica con lo que quería, y eran muchos pastelillos. Me llevó casi una hora, pero fue más fácil que hacerlo yo misma», explica.
OpenAI ha lanzado un nuevo agente para ChatGPT que utiliza un navegador virtual para completar tareas y puede generar archivos descargables, como presentaciones de PowerPoint y hojas de cálculo de Excel. Aunque no sustituye por completo a las herramientas de Microsoft, las funciones incluidas en este agente de IA podrían reducir la dependencia de algunos usuarios del software empresarial de la tecnológica. Ambas empresas son socias desde hace tiempo y actualmente negocian un contrato para el acceso permanente a los modelos de OpenAI.
Este lanzamiento forma parte de los esfuerzos de OpenAI por convertir su chatbot, que está a punto de cumplir tres años, en un producto rentable. No es tarea fácil, a pesar de contar con millones de usuarios, si se consideran los elevados costos de entrenamiento y operación de sus potentes modelos de IA, además de los altos salarios necesarios para retener al mejor talento.
En este contexto, un agente se refiere a una herramienta de IA capaz de navegar por software y sitios web de terceros, y tomar decisiones en el camino para completar tareas digitales siguiendo un conjunto inicial de instrucciones del usuario. Actualmente, «agente» es una de las palabras de moda en el sector de la inteligencia artificial generativa, especialmente entre las empresas que buscan atraer a clientes corporativos.
OpenAI busca atraer clientes empresariales
«Hemos intentado crear un producto con múltiples casos de uso empresarial», afirma Yash Kumar, jefe de producto del ChatGPT Agent. Además de generar archivos, el agente puede rellenar formularios en línea, utilizar un terminal de programación y realizar llamadas a API públicas de servicios como Google Drive y SharePoint.
Este no es el primer agente que OpenAI lanza en 2025. El nuevo ChatGPT Agent combina funciones del Operator de navegación web y de las capacidades de investigación profunda de procesamiento largo, ambos introducidos a principios de este año y considerados agentes por la empresa. «Yo estaba en el equipo de investigación profunda y Yash en el de Operator. Nos dimos cuenta de que los dos productos se complementaban muy bien, y básicamente decidimos unir los equipos», explica Fulford. ChatGPT Agent puede alternar entre un navegador visual, en el que puede hacer clic como Operator, y uno basado en texto, capaz de procesar grandes volúmenes de sitios web, como lo hacía el sistema de investigación profunda.
El agente estará disponible primero para los suscriptores de Pro, Plus y Team, comenzando hoy para los usuarios de Pro. Se espera que los suscriptores de Enterprise y Education reciban acceso más adelante este verano. Al momento del lanzamiento, los usuarios de Pro tendrán un límite de 400 solicitudes mensuales, mientras que los demás usuarios de pago podrán hacer hasta 40. No está claro cuándo estará disponible para los usuarios gratuitos de ChatGPT.
Fulford compartió su experiencia al tardar una hora en conseguir pastelillos como ejemplo de que la herramienta aún requiere tiempo considerable para completar ciertas tareas durante la fase de pruebas. No todas las solicitudes demandarán ese nivel de esfuerzo, pero los usuarios deben estar preparados para esperar mientras los agentes navegan por la web.
En una demostración previa al lanzamiento, realizada para WIRED, Kumar utilizó el agente para automatizar diversas tareas: desde planificar una cita personal hasta analizar hojas de cálculo para un analista financiero y crear una presentación con los resultados del primer trimestre de Nvidia. Mientras que planificar una salida, revisar el calendario, encontrar un restaurante disponible, puede llevar cinco minutos, generar un paquete de diapositivas con base en datos financieros puede tomar unos 25 minutos. «Puedes hacer tantas cosas como quieras en paralelo», afirma Kumar. Según él, una tarea promedio con el ChatGPT Agent dura entre 10 y 15 minutos.
Desde averiguar qué tipo de comida prefiere tu pareja, basándose en chats anteriores, hasta crear presentaciones con el estilo que sueles usar, muchas de estas tareas podrían beneficiarse del acceso a la función de memoria de ChatGPT. Aunque OpenAI planea integrar la memoria en el agente a futuro, esta no estará disponible en el lanzamiento inicial. «No es que no creamos que sea seguro. Simplemente estamos tomando una precaución adicional», aclara Kumar, quien menciona el riesgo de ataques por inyección de prompts como una de las razones para avanzar con cautela.
El agente automatiza, pero el usuario sigue teniendo el control
«Tenemos una lista de sitios web que consideramos riesgosos, como redes sociales o páginas de transacciones financieras», explica Kumar. Basado en el «modo vigilancia» introducido con Operator, el nuevo agente también dispone de una configuración similar: las tareas consideradas de alto riesgo requieren que el usuario supervise activamente la actividad de la IA y no se aleje de la página.
Después de mi llamada con OpenAI, no pude dejar de pensar en la función de «repetición». «Puedes reproducir la conversación. Antes del agente, muchas de las conversaciones no eran tan largas, relativamente hablando», comenta Kumar. Me imaginé cómo sería ver una grabación en pantalla de casi una hora del agente de Fulford buscando los pastelillos perfectos por toda la web. ¿A dónde fue primero? ¿En qué momento pudo haberse perdido?
Me vi dentro de cinco años, revisando repeticiones de las acciones de mi agente de IA con más frecuencia que navegando yo mismo por internet. Si la era de los agentes de inteligencia artificial se consolida, algo que está lejos de ser seguro, la forma en que usamos la web cambiará radicalmente.
(wired.com)
Les estaremos informando con mucho más detalle, en el marco del informe especial: “Soluciones y productos de infraestructura para edificios y ciudades inteligentes (Sistemas BIM y BMS), POL (Passive Optical LAN). Seguridad integrada, video vigilancia y control de acceso. Casos de uso y aplicabilidad de cada solución y producto, incluyendo la colaboración digital (relacionado a realidad virtual sistema BIM) (Gemelos digitales). Buenas prácticas ambientales.», que estamos preparando para nuestra edición 216 y publicaremos en el mes de julio.
Mantente conectado a nuestra revista Channel News Perú, haciendo clic aquí y suscribiéndote a nuestro newsletter para contenido de valor diario.