La nube, una opción viable ante el retorno de inversión incierto de la IA

La IA generativa ha generado un aumento repentino de la demanda de clústeres de GPU a gran escala. Los modelos de IA requieren entrenamiento, lo cual se acelera enormemente con el uso de GPU. Estos clústeres procesan en paralelo numerosas funciones matemáticas dentro de las arquitecturas de software de redes neuronales que permiten a la IA generativa clasificar y predecir.
Sin embargo, los clústeres de este tamaño son costosos y requieren una infraestructura de centro de datos personalizada y personal altamente capacitado para su instalación y gestión. Actualmente, no son fáciles de adquirir ni instalar, y los problemas en la cadena de suministro afectan aún más su accesibilidad.
Una de las predicciones de Uptime Institute para 2025 es que las empresas dependerán de hyperscalers y proveedores de nube para realizar la mayor parte del entrenamiento de modelos de IA, que luego las empresas ajustarán y personalizarán.
La ley de rendimientos decrecientes tiene un impacto considerable en el valor de entrenar completamente un modelo de IA utilizando una infraestructura dedicada. Las empresas deberán encontrar un equilibrio entre el costo y la capacidad. El costo incremental de actualizar de modelos de base compartida e infraestructura en la nube a modelos a medida en infraestructura dedicada podría no traducirse en valor real.
El costo y el beneficio impulsan las decisiones de compra
La ley económica de los rendimientos decrecientes describe cómo una mejora adicional no genera suficientes beneficios como para justificar su coste adicional. Si bien esta ley puede ser ampliamente comprendida, rara vez se considera parte del proceso diario de toma de decisiones.
Por ejemplo, Uptime Institute suele escuchar a organizaciones decir que «no pueden comprometer la seguridad» o que «la resiliencia es innegociable». Sin embargo, en la práctica, todas las empresas tienen que hacer concesiones en algún momento; algunas mejoras simplemente no ofrecen suficientes beneficios como para justificar el gasto.
Para dar cabida a la IA, también será necesario hacer concesiones similares, sobre todo en cuanto a la soberanía de los datos y la precisión de los modelos. Muchos líderes de TI afirman no considerar la infraestructura en la nube ni los modelos de terceros para sus necesidades de IA, alegando problemas de seguridad o inquietudes sobre la precisión de los modelos. Estas preocupaciones son válidas, considerando cómo una brecha de seguridad o una mala decisión pueden afectar la situación de una organización, desde multas y demandas hasta daños a la reputación.
Sin embargo, en última instancia, es necesario asumir algunos riesgos operativos, incluso si se minimizan. ¿Desarrollar un modelo personalizado en una infraestructura dedicada resuelve estas preocupaciones lo suficiente como para justificar el gasto adicional en comparación con la nube?
Los clústeres de IA son costosos y complejos
Un clúster dedicado, un conjunto de servidores propiedad de una empresa y operado por ella, alojados en el centro de datos de su elección, representa la base más controlable y personalizable para el entrenamiento de modelos de IA. Dado que un clúster es propiedad de la empresa y está gestionado por ella, se percibe una mayor seguridad de los datos y un mayor cumplimiento normativo.
Las empresas pueden restringir los datos mediante controles internos y limitar su transferencia a ubicaciones geográficas seleccionadas. El clúster se puede personalizar y proteger para satisfacer las necesidades específicas de la empresa sin las limitaciones que supone el uso de software o hardware configurado y operado por terceros. Dadas estas características, y por comodidad, Uptime Institute ha calificado este método como el mejor en términos de personalización y control.
Desafortunadamente, el costo de estos clústeres es prohibitivo para muchas organizaciones. Una inversión de este tipo podría ser rentable si se garantiza la rentabilidad. Sin embargo, el retorno financiero de las inversiones en IA aún está por determinar.
Alternativas a la infraestructura dedicada
En lugar de invertir en infraestructura y habilidades dedicadas, los proveedores de nube pública y los proveedores de modelos base ofrecen capacidades de IA sin costos de capital sustanciales. Sin embargo, el uso de estas alternativas requiere sacrificar el control y la personalización. Por lo tanto, pueden ofrecer modelos «buenos» o «mejores» en lugar de la «mejor» opción que ofrece la infraestructura dedicada.
Nube pública
Hyperscalers como Amazon, Google, Microsoft, Meta, Alibaba y Apple, así como una nueva generación de proveedores de nube como CoreWeave y Lambda Labs, ofrecen servicios de plataforma e infraestructura de GPU a través de la nube pública.
Al usar la nube pública, los clientes pueden acceder a la capacidad bajo demanda, pagando solo por lo que usan. Solo consumen la capacidad de servidor necesaria, en lugar de comprar e instalar un clúster grande. Pueden usar un modelo de base como base para su capacitación, simplificando y acelerando el desarrollo.
La infraestructura como servicio (IaaS) permite a los clientes aprovisionar máquinas virtuales con GPU a través de un portal o API para desarrollar un modelo utilizando la infraestructura en la nube. Posteriormente, ejecutan su modelo de entrenamiento en estas máquinas virtuales y descargan el modelo completo una vez finalizado. Los proveedores de nube también ofrecen opciones de plataforma como servicio (PaaS) que permiten a las empresas realizar solicitudes de IA, como traducciones, directamente a una API, sin necesidad de gestionar ningún aspecto del modelo ni de la infraestructura subyacente.
El beneficio de la nube pública es que los clientes no necesitan capital ni habilidades para la implementación y pueden comprar capacidad cuando sea necesario.
Modelos de cimentación
Los hyperscalers, las startups y la comunidad de código abierto ofrecen modelos básicos: software preentrenado de terceros. Muchas organizaciones ya utilizan estos modelos para evitar costos y complejidad de capacitación.
Un modelo base se puede ajustar para adaptarse a un caso de uso específico. Dado que la mayor parte del entrenamiento del modelo ya se ha realizado con antelación, el ajuste no suele requerir un clúster dedicado, ya que no se utilizaría lo suficiente a lo largo de su vida útil como para resultar rentable en comparación con IaaS. Otras funciones, como la Generación Aumentada de Recuperación (RAG), pueden mejorar el modelo sin necesidad de un entrenamiento significativo (o nulo). RAG permite que un modelo de lenguaje extenso recupere datos externos para resolver una consulta sin tener que volver a entrenar el modelo.
Entrenado de una vez por todas
La Figura 1 muestra cómo se aplica la ley conceptual de rendimientos decrecientes al costo de personalizar los modelos de implementación de entrenamiento de IA a medida que varía el nivel de personalización. Como se mencionó, la mejor opción es entrenar un modelo desde cero utilizando una infraestructura dedicada.

Una alternativa “buena” menos costosa es utilizar una plataforma como servicio o un modelo de base previamente entrenado.
Solo las empresas más eficientes utilizarán la «mejor» infraestructura dedicada lo suficiente como para que sea más rentable que la «buena» alternativa en la nube. Por lo tanto, la mayoría de las empresas deberían prever un precio superior por la infraestructura dedicada.
Las implementaciones rentables de la nube utilizan modelos compartidos y de propósito general que no están diseñados para casos de uso empresariales específicos. Sin embargo, estas capacidades básicas pueden personalizarse de forma económica mediante herramientas que optimizan el modelo para requisitos empresariales específicos, lo que las convierte en la mejor opción.
Un modelo básico proporciona un nivel básico de capacidad de propósito general a un costo relativamente bajo. Capacidades como RAG y el ajuste fino pueden mejorar sustancialmente la relevancia de estos modelos a un costo relativamente bajo. Estos costos son bajos porque solo se necesitan unos pocos recursos adicionales para ajustar un modelo de propósito general y hacerlo más útil.
El aumento de costo de «bueno» a «mejor» es pequeño; el costo incremental probablemente se justifique si se obtiene algún valor. Sin embargo, el salto de «mejor» a «óptimo» es sustancial. Lo que aún no está claro es si el costo adicional vale la pena.
¿Vale la pena pagar más por un servicio dedicado?
Una barrera importante para la adopción de la IA en la nube es la soberanía de los datos y la necesidad de proteger y asegurar la información confidencial de acuerdo con las normativas. Muchos argumentan que la soberanía de los datos o las regulaciones impiden el uso de la nube para ciertas cargas de trabajo. Una importante ventaja de la infraestructura dedicada es la seguridad de que los datos se almacenan en el centro de datos elegido por la empresa, que controla, posee y opera por completo. Tener control sobre dónde y cómo se gestionan los datos proporciona una sensación de seguridad y cumplimiento normativo.
El reto para las empresas reside en determinar si la seguridad adicional que ofrece una infraestructura dedicada ofrece una rentabilidad real a cambio de su considerable ventaja sobre la opción «mejor». Muchas grandes organizaciones, desde servicios financieros hasta sanidad, ya utilizan la nube pública para almacenar datos confidenciales. Para proteger los datos, una organización puede cifrarlos en reposo y en tránsito, configurar controles de acceso adecuados, como grupos de seguridad, y configurar alertas y sistemas de monitorización. Muchos proveedores de la nube cuentan con centros de datos aprobados para uso gubernamental. No es razonable considerar la nube como inherentemente insegura o incumplidora, considerando su amplio uso en numerosos sectores.
Si bien una infraestructura dedicada garantiza que los datos se almacenan y procesan en una ubicación específica, no es necesariamente más segura ni cumple con las normativas que la nube. Podría decirse que una aplicación que se ejecuta en una plataforma en la nube debidamente protegida puede cumplir mejor con las normativas que una alojada en equipos dedicados en un centro de datos privado que no esté configurado correctamente.
Se pueden hacer concesiones para reducir la confidencialidad de los datos, como ocultar o anonimizar la información identificable del cliente antes del entrenamiento. Sin embargo, estas concesiones pueden reducir el valor y la precisión del modelo. Dicho esto, podrían ser rentables en comparación con la considerable inversión que requiere un clúster dedicado (o las oportunidades perdidas al decidir no aprovechar el potencial). Siempre existe el riesgo de una brecha de seguridad, independientemente de dónde se encuentren los datos. Un precio elevado por usar una infraestructura dedicada no se traduce necesariamente en una empresa más segura.
Otra preocupación planteada por las empresas son las alucinaciones, en las que un modelo de IA genera información incorrecta, engañosa o ficticia. Sin embargo, no está claro si actualizar de «mejor» a «óptimo» solucionará estos problemas. Una actualización podría solucionar el problema, ya que la empresa controla completamente los datos de entrenamiento; sin embargo, no se garantiza una mejora. Los modelos de IA son complejos y aún pueden producirse respuestas inesperadas.
En definitiva, es difícil evitar por completo las alucinaciones y la información incorrecta. Las empresas deberán reconocer que incluso el modelo de IA más rigurosamente entrenado cometerá errores, y sus resultados deben tratarse con precaución. El riesgo de que un error de IA afecte al negocio nunca se puede reducir a cero.
El reto para las empresas es cuantificar cómo la inversión en infraestructura dedicada mejora los resultados. La capacitación en la nube, que utiliza modelos básicos, facilita la experimentación y la personalización a bajo coste. Sin embargo, esto conlleva la desventaja de confiar datos potencialmente sensibles o valiosos a terceros.
Por otro lado, una infraestructura dedicada implica un mejor control de los datos y, en algunos casos, puede ser más rentable que la nube. Sin embargo, requiere una inversión significativa y un compromiso a largo plazo con la IA, sin garantizar rentabilidad en términos de precisión del modelo, rendimiento o seguridad de los datos.
Hoy en día, una empresa puede realizar una inversión sustancial en infraestructura de IA y desarrollo a medida, solo para descubrir que el modelo entregado es apenas ligeramente mejor que un modelo de terceros optimizado en la nube. Desafortunadamente, esto solo se hace evidente después de realizar la inversión. El resultado es impredecible.
(datacenterdynamics.com)
Les estaremos informando con mucho más detalle, en el marco del informe especial: “Soluciones y productos de infraestructura para edificios y ciudades inteligentes (Sistemas BIM y BMS), POL (Passive Optical LAN). Seguridad integrada, video vigilancia y control de acceso. Casos de uso y aplicabilidad de cada solución y producto, incluyendo la colaboración digital (relacionado a realidad virtual sistema BIM) (Gemelos digitales). Buenas prácticas ambientales.», que estamos preparando para nuestra edición 216 y publicaremos en el mes de julio.
Mantente conectado a nuestra revista Channel News Perú, haciendo clic aquí y suscribiéndote a nuestro newsletter para contenido de valor diario.