La IA se volvió más confiable este año, pero no porque se haya vuelto más inteligente
![]()
En marzo de 2025, un estudio publicado en npj Digital Medicine, del grupo Nature, puso a ChatGPT a resolver 48 tareas de cálculo médico estándar. La IA respondió mal en una de cada tres consultas. Los investigadores repitieron el experimento agregando al modelo una calculadora médica específica. La precisión pasó del 4,8% al 95% en los modelos GPT, y el margen de error cayó 13 veces.
La IA no se volvió más inteligente, aprendió a pedir ayuda.
Esa es la historia central del año en inteligencia artificial, y es la que The Wall Street Journal reconstruyó esta semana en un análisis firmado por Christopher Mims. Los modelos que hoy usan 500 millones de personas por semana son más confiables que hace 12 meses, pero el progreso no vino de un salto hacia la superinteligencia. Vino de algo mucho más modesto: los ingenieros aceptaron que el modelo solo no alcanza y lo rodearon de muletas.
Los LLM nunca razonaron, y ahora hay evidencia dura
En octubre de 2024, seis investigadores de Apple liderados por Iman Mirzadeh publicaron un paper llamado GSM-Symbolic que pasó desapercibido para el público general pero incomodó a la industria. Evaluaron más de 20 modelos, incluidos los de OpenAI, Google y Meta, con 5.000 problemas matemáticos de nivel escolar. El experimento era simple: tomaban un problema resuelto y solo cambiaban los valores numéricos. La estructura del razonamiento, idéntica.
El rendimiento cayó en todos los modelos.
Cuando agregaron una cláusula irrelevante al enunciado, una oración que cualquier chico de diez años descartaría, la caída llegó al 65%. La conclusión del paper fue demoledora: los programas de inteligencia artificial basados en redes neuronales (LLM) no realizan razonamiento lógico genuino, replican pasos de razonamiento desde sus datos de entrenamiento. Son reconocedores de patrones a escala masiva. No piensan, calculan probabilidades sobre qué palabra viene después.
Tres muletas convirtieron un predictor defectuoso en una herramienta útil
Mims identifica tres cambios concretos que explican la mejora. El primero: los modelos ahora incorporan conocimiento especializado producido por humanos expertos pagados por hora, no solo texto raspado de internet. El segundo: aprendieron a usar herramientas externas. Cuando detectan un cálculo, delegan a Python o a una calculadora real. Cuando necesitan información fresca, consultan Google. El tercero: los modelos se auditan entre sí. Antes de entregar una respuesta compleja, muchos sistemas de producción piden a otro modelo que la revise.
Nada de esto es razonamiento, es ingeniería de software tradicional rodeando un predictor probabilístico. Según consigna The Wall Street Journal, OpenAI reconoció que su modelo principal actual produce 26% menos errores factuales que GPT-4o. No porque el modelo razone mejor, sino porque aprendió a consultar, delegar y verificar.
Gary Marcus, uno de los críticos más consistentes del hype de la IA, lo sintetizó en la misma nota: los LLM siguen siendo igual de poco fiables que siempre, pero ahora se pueden combinar con tecnologías deterministas que habían perdido prestigio y que resultan utilísimas. Marcus nunca elogia a la industria. Esta vez lo hizo, y describió exactamente lo contrario al mito de la superinteligencia.
La confesión involuntaria de Anthropic
La prueba más clara apareció por accidente. El 31 de marzo pasado, un investigador llamado Chaofan Shou descubrió que Anthropic había dejado expuesto por error el código fuente de Claude Code, su agente más vendido. Anthropic confirmó el episodio a The Register y Axios: fue un error humano de empaquetado. Lo que el código reveló es lo interesante. Adentro del agente que factura USD 2.500 millones anualizados hay instrucciones explícitas para que el modelo trate su propia memoria como una pista y verifique los hechos contra el código real antes de responder.
Los propios ingenieros de Anthropic no confían en que su modelo recuerde bien. Por eso lo obligan a chequear. Afuera venden razonamiento avanzado. Adentro programaron desconfianza.
El valor está donde los CEOs no están mirando
Acá aparece la paradoja incómoda. Los directivos que hoy despiden empleados esperando que la IA los reemplace están comprando un producto que no existe como lo imaginan. Lo que sí existe es una arquitectura compleja donde el modelo de lenguaje es apenas un componente. Hay código tradicional para gestionar la memoria, hay herramientas externas para calcular, hay buscadores para consultar datos frescos, hay sistemas donde un modelo audita a otro antes de entregar la respuesta.
Todo eso requiere ingenieros que sepan combinar piezas. No menos empleados. Más.
La IA es más útil hoy que hace un año porque la industria abandonó la promesa original. Los modelos no se acercaron a la inteligencia humana, se alejaron de ella con elegancia y dejaron que el trabajo duro lo hagan calculadoras, buscadores y código viejo. El valor económico de la próxima década no va a estar en los modelos. Va a estar en los equipos capaces de construir los andamios que los sostienen. Los que crean que pueden reemplazar empleados con una suscripción mensual a un chatbot están comprando humo con descuento.
(infobae.com)
Seguiremos brindándote más información sobre este tema en las siguientes presentaciones físicas y digitales de Channel News Perú
Mantente conectado a nuestra plataforma de negocios y revista, haciendo clic aquí y suscribiéndote a nuestro newsletter para contenido de valor diario