Google presenta la octava generación de TPU, dos chips específicos para entrenamiento e inferencia
![]()
Google ha presentado la octava generación de sus unidades de procesamiento Tensor (TPU), compuesta por dos chips dedicados a las tareas de entrenamiento e inferencia de IA.
Bautizadas como TPU 8t (para entrenamiento) y TPU 8i (para inferencia), Google ha afirmado que el hardware se ha diseñado en colaboración con Google DeepMind y cuenta con «arquitecturas específicas» para dar soporte al entrenamiento de modelos, el desarrollo de agentes y las cargas de trabajo de inferencia.
«Nuestras TPU de octava generación son la culminación de más de una década de desarrollo», afirmó Amin Vahdat, vicepresidente sénior y director tecnológico de IA e infraestructura de Google. «La idea clave detrás del diseño original de las TPU sigue vigente hoy en día: al personalizar y codiseñar el silicio con hardware, redes y software, incluyendo la arquitectura de los modelos y los requisitos de las aplicaciones, podemos ofrecer una eficiencia energética y un rendimiento absoluto mucho mayores».
La TPU de entrenamiento
En una entrada de blog en la que se detallan las nuevas TPU, Vahdat describió la TPU 8t como una «potencia de entrenamiento» que se ha construido para «reducir el ciclo de desarrollo de modelos de vanguardia de meses a semanas».
Un solo superpod de TPU 8t puede escalar hasta 9600 chips, ofreciendo dos petabytes de memoria de alto ancho de banda (HBM) y el doble de ancho de banda entre chips que la generación anterior, Ironwood. Google afirmó que la arquitectura ofrece 121 exaflops de rendimiento de cálculo FP4 para superar los cuellos de botella del ancho de banda de la memoria, al tiempo que mantiene la precisión para modelos de gran tamaño, con un rendimiento de cálculo por pod que casi se triplica en comparación con Ironwood.
El TPU 8t cuenta con un ancho de banda bidireccional de escalabilidad vertical de 19,2 Tbps y un ancho de banda de red de escalabilidad horizontal de 400 Gbps; para ello, Google ha presentado una nueva arquitectura de red que da soporte al hardware. Denominada «Virgo Network», la empresa ha afirmado que permite multiplicar por cuatro el ancho de banda del centro de datos y se ha diseñado sobre la base de conmutadores de alto radix que reducen las capas de red.
Además, con JAX y Pathways, Google ha afirmado que ahora puede escalar a más de un millón de chips TPU en un único clúster de entrenamiento, y que Virgo Network es capaz de conectar más de 134 000 chips TPU 8t con hasta 47 petabits por segundo de ancho de banda bidireccional sin bloqueos en una única estructura. Como resultado, esta estructura ofrece más de 1,6 millones de exaflops con un rendimiento de escalabilidad casi lineal, según la empresa.
Google también ha introducido TPUDirect RDMA y TPU Direct Storage en el TPU 8t. TPUDirect RDMA permite transferencias directas de datos entre la memoria y las tarjetas de interfaz de red (NIC), sin pasar por la CPU del host ni la DRAM para reducir la latencia. Por su parte, TPU Direct Storage también evita la CPU del host para permitir el acceso directo a la memoria entre la TPU y el almacenamiento gestionado de alta velocidad, «duplicando de hecho el ancho de banda para transferencias masivas de datos», afirmó la empresa.
La TPU de inferencia
En comparación, la TPU 8i se ha diseñado para gestionar el «trabajo complejo, colaborativo e iterativo de muchos agentes especializados» que está surgiendo con la llegada de la IA agentiva.
Diseñada con mayor ancho de banda de memoria para atender cargas de trabajo de inferencia sensibles a la latencia, la TPU 8i es escalable hasta 1.152 chips en un solo pod. Ofrece 11,6 exaflops de rendimiento de cálculo FP8, con una capacidad total de HBM de 331,8 TB por pod y 19,2 Tbps de ancho de banda bidireccional escalable por chip.
Google ha afirmado que, en lo que respecta al TPU 8i, también ha «rediseñado la pila» para incluir cuatro funciones que eliminan el efecto «sala de espera» —cuando las solicitudes de los usuarios se ponen intencionadamente en cola o se retrasan para maximizar la utilización del hardware—.
Entre ellas se incluyen la combinación de 288 GB de HBM con 384 MB de SRAM integrada en el chip para evitar que los procesadores permanezcan inactivos; la duplicación del número de hosts de CPU físicos por servidor mediante el cambio a las CPU personalizadas Axion basadas en Arm de Google; la duplicación del ancho de banda de interconexión para los modelos Mixture of Experts; y la reducción de la latencia integrada en el chip hasta en cinco veces con la introducción de un nuevo motor de aceleración colectiva integrado en el chip.
En consecuencia, Vahdat afirmó que estas innovaciones permiten a la TPU 8i ofrecer un rendimiento por dólar un 80 % superior en comparación con Ironwood.
Tanto la TPU 8t como la 8i se ejecutan en el host de CPU Axion basado en Arm de Google y son compatibles con tecnologías de refrigeración líquida. La empresa afirmó que también ha optimizado la eficiencia en toda la pila para ofrecer una gestión de energía integrada que puede ajustar el consumo de energía en función de la demanda en tiempo real, lo que se traduce en un rendimiento por vatio hasta dos veces superior en comparación con Ironwood.
«Al controlar toda la pila, desde el host Axion hasta el acelerador, podemos optimizar la eficiencia energética a nivel de sistema de formas que simplemente no se pueden lograr cuando el host y el chip se diseñan de forma independiente», afirmó Vahdat.
Ambos chips estarán disponibles a finales de este año y podrán utilizarse como parte del AI Hypercomputer de Google, una arquitectura de superordenador basada en la nube lanzada por la empresa en 2023 que combina hardware optimizado para el rendimiento, software abierto, marcos de aprendizaje automático y modelos de consumo flexibles.
(datacenterdynamics.com)
Seguiremos brindándote más información sobre este tema en las siguientes presentaciones físicas y digitales de Channel News Perú
Mantente conectado a nuestra plataforma de negocios y revista, haciendo clic aquí y suscribiéndote a nuestro newsletter para contenido de valor diario