Cómo el tráfico de los bots de la IA está ahogando la red e incrementando costos de infraestructura
Hace un par de años, se produjo una conmoción en el mercado editorial estadounidense. Se descubrió que, para alimentar a las inteligencias artificiales de algunos de los gigantes tecnológicos, les habían dado a leer una avalancha de libros. Eran consumidores intensos del mercado de novedades, cierto, pero unos a los que los escritores no habían dado permiso para leer sus obras. Los posts indignados en redes sociales y los reportajes en profundidad en los medios se sucedieron.
En 2023, varios escritores estadounidenses demandaron a Meta por el uso de su obra. A principios de este año, el escándalo creció cuando se supo que podrían haber usado una base de datos de libros piratas.
En abril de este año, Wikimedia publicaba en su blog oficial un post contando al mundo cómo se había disparado el tráfico de la Wikipedia y las vinculaciones que esto tenía con la inteligencia artificial. “Estamos observando un aumento significativo del volumen de demandas [de visitas], siendo la mayor parte de este tráfico impulsada por los bots de scraping que recolectan datos para entrenar a los modelos de lenguaje y otros casos de uso”, escriben. La infraestructura TI de la enciclopedia gratuita se está resistiendo ya del envite de este pico de visitas: el 65% del “tráfico más caro” que deben afrontar lo generan bots.
Para ser inteligente, la IA necesita antes conocer la información. Necesita recibir una avalancha de contenidos que le permitan ser educada. Los datos son fundamentales, pero para ello se necesita antes encontrarlos y ponerlos a disposición. Esto es un problema a muchos niveles. Lo es, por ejemplo, cuando se quiere entrenar IA, pero con lenguas que generan menos cantidad de contenido que el dominante inglés. Lo es también por cuestiones que afectan a los dueños originales de esos contenidos.
El scraping se ha convertido ya en otro problema más para la infraestructura TI.
Las consecuencias de este boom de bots IA
La primera de las consecuencias está en los derechos de autor, una de las cuestiones que primero generaron tensiones y problemas en el boom de la inteligencia artificial. Esto pasa con materiales como los libros, pero también ocurre con el contenido que se publica en internet. La gran pregunta de base es si supone o no un uso legítimo que los bots que alimentan la IA naveguen por la red tomando contenidos.
La segunda de las consecuencias es, directamente, sobre la infraestructura TI, tanto en coste como en datos o hasta robustez para quienes están recibiendo esas visitas. Según los datos del último Informe de Amenazas “Q2 2025 Threat Insights Report” de Fastly, el 37% de todo el tráfico global de internet viene ya de los bots. Es tráfico automatizado. De esas visitas, el 89% es tráfico no deseado, en el que se incluyen desde bots maliciosos a fraudes publicitarios, pasando por sustracción de datos (y no entran aquí, por ejemplo, los rastreadores de buscadores, legítimos y útiles para redirigir tráfico a la propia web de la compañía).
En todo el tráfico de bots, la IA es también especial protagonista. Casi el 80% de todo el tráfico de bots de IA viene ya de sus rastreadores, según Fastly. Meta es quien lidera la actividad de crawling a gran escala, con la mitad del tráfico y superando a la suma de Google y Open AI. ChatGPT lidera, por su parte, en tráfico web en tiempo real.
Las víctimas habituales son las webs consideradas más fiables. “Los rastreadores de IA se centran de manera desproporcionada en dominios de alta autoridad, como sitios de noticias, conjuntos de datos abiertos, páginas gubernamentales, recursos educativos y documentos técnicos”, apunta en un análisis Simon Wistow, cofundador y VP P Strategic Initiatives de Fastly. “Y el 95 % de ese tráfico de rastreadores proviene de solo tres actores: Meta (52 %), Google (23 %) y OpenAI (20 %)”, suma.
Por ahora, eso sí, el grueso se concentra en Norteamética, con el 90% del tráfico de los bots, posiblemente por una cuestión lingüística y por otra de dónde se están desarrollando las IAs. En paralelo, este dato apunta otra cuestión fundamental, como recuerda el informe de Fastly, el de “un sesgo geográfico creciente en los conjuntos de datos utilizados para entrenar modelos de lenguaje (LLM) y plantea dudas sobre la futura neutralidad de sus resultados”.
Costes de infraestructura
Este boom del rastreo está haciendo que aumente el consumo de ancho de banda y los y patrones de acceso que saturan servidores, advierten desde Fastly. Las peticiones pueden llegar a las 39.000 por minuto, lo que puede tumbar a una infraestructura no protegida.
De hecho, y aunque no lo sean, estos accesos se pueden convertir en un ataque: el análisis indica que estos picos tienen efectos parecidos a los que podría tener un ataque DDoS. Poco importa que los bots IA no busquen el mal, porque están logrando lo mismo que un ataque malicioso.
El informe concluye que estos bots pueden “degradar la experiencia de usuario, subir los costes de infraestructura y afectar la analítica web”.
Cómo solucionar la avalancha de bots IA
“Cloudflare causó revuelo el mes pasado al anunciar un bloqueo por defecto de los rastreadores de IA”, apunta Wistow. “Pero hay un detalle: dejaron fuera a dos rastreadores importantes: Google y Apple, lo que significa que su «solución» de alto perfil no puede detener realmente a algunos de los mayores impulsores del scraping de IA en la actualidad sin perjudicar el SEO en el proceso”, puntualiza, sumando que sus palabras no son tanto una crítica a esta compañía, sino “una llamada de atención para toda la industria”.
Enfrentarse a esta avalancha de tráfico de rastreadores de IA es más “complejo e interesante” de lo que podría parecer a simple vista.
Por un lado, los responsables web no pueden simplemente bloquear los accesos a los bots de muchas de las empresas clave. Por ejemplo, como apunta el análisis, Google no separa al de indexado del de la IA, así que si se bloquea al segundo se estará bloqueando al primero y hundiendo la estrategia SEO.
Wistow apunta que robots.txt ya es “una sugerencia, no un escudo” y que solo los bots “que se comportan correctamente” lo cumplen. “Ahí está el verdadero problema. Si quieres proteger tu contenido del uso de la IA, pero no quieres acabar con tu SEO, no hay una separación clara entre el rastreo de buscadores y el scraping de IA, al menos no en lo que respecta a Google y Apple”, indica el experto. Bloquear los bots de la IA es complicadísimo, a menos que las compañías separen sus bots (el experto señala como ejemplo de quien si lo hace a DuckDuckGo).
Otras compañías de IA no son transparentes con sus IP, indica, y otras compran datos ya rastreados de terceros, lo que hace aún más complicado el seguimiento. “Ya sea por limitaciones técnicas o por diseño, el efecto es el mismo: no puedes bloquear lo que no ves”, resume. Su compañía propone como antídoto un edge programable para controlar en tiempo real el tráfico de bots.
(computerworld.es)
Les estaremos informando con mucho más detalle, en el marco del informe especial: “Soluciones y productos de infraestructura para edificios y ciudades inteligentes (Sistemas BIM y BMS), POL (Passive Optical LAN). Seguridad integrada, video vigilancia y control de acceso. Casos de uso y aplicabilidad de cada solución y producto, incluyendo la colaboración digital (relacionado a realidad virtual sistema BIM) (Gemelos digitales). Buenas prácticas ambientales.», que estamos preparando para nuestra edición 215 y publicaremos en el mes de agosto.
Mantente conectado a nuestra revista Channel News Perú, haciendo clic aquí y suscribiéndote a nuestro newsletter para contenido de valor diario.