Nuevo chip optimizado para inferencia: Maia 200 de Microsoft

Loading

Microsoft presentó ayer el chip acelerador Maia 200, que representa un importante movimiento del proveedor en su estrategia de infraestructura de IA, siendo su primera plataforma de silicio y sistemas optimizada específicamente para la inferencia de modelos de lenguaje de gran escala (LLM) y razonamiento moderno.

Este chip ha sido diseñado con el objetivo de transformar radicalmente la economía de la generación de tokens, ofreciendo el rendimiento por dólar más eficiente de cualquier sistema de inferencia desplegado en Azure hasta la fecha, tal y como declara la compañía en un comunicado.

De esta forma, Microsoft ataca uno de los mayores problemas a los que se ha enfrentado la IA generativa hasta la fecha: conseguir una rentabilidad a escala que la industria ve aún muy lejos.

La arquitectura de Maia 200

Básicamente, la arquitectura del chip Maia 200 se basa en una jerarquía diseñada para maximizar la eficiencia y el rendimiento. El componente básico es el “tile”, que funciona como una unidad autónoma de cómputo y almacenamiento local. Cada tile integra dos motores de ejecución:

  • Tile Tensor Unit (TTU): Optimizado para multiplicaciones de matrices de alto rendimiento y convoluciones.
  • Tile Vector Processor (TVP): Un motor SIMD altamente programable para operaciones que requieren mayor flexibilidad.

Los tiles, a su vez, se agrupan en clusters, que introducen una segunda capa de localidad compartida mediante una memoria Cluster SRAM dedicada, permitiendo la coordinación de la ejecución entre múltiples tiles antes de escalar al nivel de SoC.

Ciertamente, otro de los pilares del Maia 200 es su subsistema de memoria, diseñado para minimizar el tráfico fuera del chip y reducir la demanda de ancho de banda, lo que mejora la eficiencia energética. Sus especificaciones clave incluyen:

  • Memoria SRAM integrada en chip: 272 MB repartidos entre niveles de tile (TSRAM) y cluster (CSRAM), totalmente gestionados por software para un control preciso de la localidad de los datos.
  • Memoria HBM3e: 216 GB con un ancho de banda de 7 TB/s.
  • El chip está construido desde cero para ejecutar formatos de baja precisión como FP4, ofreciendo 10,1 PetaOPS en este formato. El rendimiento en FP4 es 8 veces superior al de BF16 y el doble que el de FP8, lo que permite ganancias sustanciales en tokens por segundo, tal y como asegura Microsoft.

Conectividad y escalabilidad: El protocolo ATL

Para permitir la comunicación a gran escala, el Maia 200 integra una tarjeta de red en el propio chip que ofrece un ancho de banda bidireccional de 2,8 TB/s. Utiliza un protocolo innovador denominado AI Transport Layer (ATL), que opera sobre Ethernet estándar pero añade optimizaciones como el packet spraying y el enrutamiento multipunto para maximizar la estabilidad.

Otra característica destacada es el Fully Connected Quad (FCQ), que agrupa cuatro aceleradores mediante enlaces directos sin necesidad de interruptores externos, reduciendo la latencia en comunicaciones paralelas de tensores. Este sistema permite escalar hasta clústeres de 6.144 aceleradores.

Integración en el ecosistema Azure

Microsoft busca ofrecer un 30% mejor rendimiento por dólar en comparación con la generación actual de hardware en su flota de sistemas.

Sus implicaciones para el mercado incluyen:

  1. Soporte para modelos de próxima generación: El sistema está preparado para ejecutar los últimos modelos GPT-5.2 de OpenAI y potenciar Microsoft 365 Copilot.
  2. Infraestructura flexible: Es compatible con infraestructuras de refrigeración por aire y líquida, lo que facilita su despliegue masivo en centros de datos existentes y nuevos.
  3. Facilidad para desarrolladores: El SDK de Maia permite a los desarrolladores trabajar con herramientas que les son familiares como PyTorch, utilizar el compilador Triton o recurrir al lenguaje Nested Parallel Language (NPL) para un control absoluto del hardware.

Microsoft incide en que el chip Maia 200 no es solo un acelerador de IA, sino un bloque de construcción integral que combina importantes mejoras en silicio, software y red para establecer un nuevo estándar de eficiencia en la era de la IA generativa a hiperescala.

Maia 200 ya está disponible en la región cloud US Central de Microsoft Azure. Estos primeros sistemas  ya están impulsando nuevos modelos del equipo de Microsoft Superintelligence, acelerando proyectos de Microsoft Foundry y dando soporte a Microsoft Copilot.

(silicon.es)

Seguiremos brindándote más información sobre este tema en las siguientes presentaciones físicas y digitales de Channel News Perú

Mantente conectado a nuestra plataforma de negocios y revista, haciendo clic aquí y suscribiéndote a nuestro newsletter para contenido de valor diario

Digiqole Ad
...

Notas Relacionadas