Microsoft publica pruebas comparativas detalladas de AMD EPYC Milan-X

16/11/2021

AMD ha anunciado oficialmente los últimos procesadores EPYC Milan-X de la compañía con 3D V-Cache, entre otras cosas interesantes como el Instinct MI200 y una hoja de ruta para Zen 4. Sin embargo, el fabricante de chips no ha enumerado las especificaciones para los chips apilados en la caché. pero Microsoft ha compartido los puntos de referencia Milan-X para mostrar el aumento de rendimiento que aporta 3D V-Cache.

Microsoft aprovechará Milan-X para alimentar sus nuevas máquinas virtuales de la serie Azure HBv3, que se basan en un par de procesadores EPYC 7V73X. Cada procesador ofrece hasta 64 núcleos Zen 3 para un total de 128 núcleos por servidor. Sin embargo, se reservan ocho núcleos de cada servidor para alimentar el hipervisor de Azure y otras rutinas de orquestación. Como resultado, Microsoft ofrece a sus clientes hasta cinco configuraciones con diferentes recuentos de núcleos: 120 núcleos, 96 núcleos, 64 núcleos, 32 núcleos y 16 núcleos. El EPYC 7V73X presenta una velocidad máxima de reloj de hasta 3.5GHz.

Milan-X cuenta con hasta 768 MB de caché L3 (L3 + 3D V-Cache) por chip, por lo que una configuración de dos sockets proporciona hasta 1,5 GB de caché L3 por sistema o, en el caso de Microsoft, por VM. Lógicamente, la asignación de L3 dependerá de la configuración. Por ejemplo, la máquina virtual de 16 núcleos tiene acceso a 96 MB por núcleo, mientras que la configuración de 32 núcleos se reduce a 48 MB por núcleo. De cualquier manera, la capacidad L3 del Milan-X representa una mejora de 3 veces con respecto a los chips de Milán actuales, o una mejora de 6 veces con respecto a los procesadores Roma anteriores.

El otro hardware de Azure HBv3 no ha cambiado. Todavía hay 448 GB de memoria con un ancho de banda de 350 GBps (medido con STREAM TRIAD). Además, dos SSD NVMe de 900 GB proporcionan almacenamiento de alta velocidad con velocidades de lectura y escritura de hasta 6,9 GBps y 2,9 GBps, respectivamente, y una NIC Mellanox ConnectX-6 proporciona conectividad Ethernet de 200 Gbps.

Especificaciones de Microsoft Azure HBv3

Tamaño de VM 120 colores de CPU 96 colores de CPU 64 colores de CPU 32 colores de CPU 16 colores de CPU Nombre de VM estándar_HB120rs_v3 estándar_HB120- 96rs_v3 estándar_HB120- 64rs_v3 estándar_HB120- 32rs_v3 estándar_HB120- 16rs_v3 InfiniBand 200 Gb / s HDR 200 Gb / s HDR 200 Gb / s 5 GHz3.5 GHz3.5 GHzRAM por VM448 GB448 GB448 GB448 GB448 GBRAM por núcleo3.75 GB4.67 GB7 GB14 GB28 GBMemoria B / N por VM350 GB / s350 GB / s350 GB / s350 GB / s350 GB / sMemoria B / N por core2.91GB / s3.65GB / s5.46GB / s10.9GB / s21.9GB / sL3 Caché por VM1.5 GB1.5 GB1.5 GB1.5 GB1.5 GB1.5 GBL3 Caché por núcleo12.8 MB16 MB24 MB48 MB96 MBSSD Rendimiento por VM2 * 960 GB NVMe – 6,9 GB / s (lectura) / 2,9 GB / s (escritura), 200 K IOPS (lectura) / 190 K IOPS (escritura) 2 * 960 GB NVMe – 6,9 GB / s ( lectura) / 2,9 GB / s (escritura), 200 K IOPS (lectura) / 190 K IOPS (escritura) 2 * 960 GB NVMe – 6,9 GB / s (lectura) / 2,9 GB / s (escritura), 200 K IOPS ( lectura) / 190 K IOPS (escritura) 2 * 960 GB NVMe – 6,9 GB / s (lectura) / 2,9 GB / s (escritura), 200 K IOPS (lectura) / 190 K IOPS (escritura) 2 * 960 GB NVMe – 6,9 GB / s (Rea d) / 2,9 GB / s (escritura), 200 K IOPS (lectura) / 190 K IOPS (grabación)

Microsoft ha notado que un caché grande obviamente aumenta la latencia de memoria efectiva y el ancho de banda. Las cargas de trabajo como la dinámica de fluidos computacional (CFD), el análisis explícito de elementos finitos (FEA), la simulación climática y la simulación EDA RTL se beneficiarán de la generosa ayuda de Milan-X con la caché L3. Por el contrario, las cargas de trabajo que dependen de FLOPS máximos, velocidades de reloj o capacidad de memoria son inmunes a las cachés L3 grandes. Esto incluye dinámica molecular, diseño completo de chips EDA, extracción de parásitos EDA y análisis implícito de elementos finitos.

Imagen 1 de 2

Benchmarks Milan-X (Crédito de la imagen: Microsoft) Imagen 2 de 2

Benchmarks Milan-X (Crédito de la imagen: Microsoft)

Los resultados revelaron que el Milan-X (EPYC 7V73X) tenía entre un 42% y un 50% menos de latencia de memoria que el Milan actual (EPYC 7V13). Milan-X tiene uno de los mayores avances en rendimiento relativo en términos de latencia de memoria desde que los controladores de memoria pasaron al procesador. Es fundamental mencionar que los resultados de Microsoft no son indicativos de que Milan-X haya mejorado la latencia de los accesos DRAM.

Según Microsoft, los cachés grandes permiten tasas de aciertos de caché más altas y crean una combinación de latencias L3 y DRAM para obtener mejores resultados en el mundo real. Debido a la forma en que AMD apiló la caché L3, se ha ampliado el ancho de la distribución de latencia L3. Sin embargo, Microsoft cree que Milan-X debería tener una latencia de memoria L3 en el mismo estadio que Milán. En el peor de los casos, Milan-X puede tener una latencia L3 ligeramente más lenta.

Memory on Milan-X sigue una historia similar. Milan-X genera aproximadamente 358 GB / s de rendimiento en el banco de pruebas STREAM TRIAD. El resultado es idéntico a un servidor de doble socket convencional con chips Milan emparejados con memoria DDR4-3200 en una única configuración DIMM por canal.

Imagen 1 de 8

Benchmarks Milan-X (Crédito de la imagen: Microsoft) Imagen 2 de 8

Benchmarks Milan-X (Crédito de la imagen: Microsoft) Imagen 3 de 8

Benchmarks Milan-X (Crédito de la imagen: Microsoft) Imagen 4 de 8

Benchmarks Milan-X (Crédito de la imagen: Microsoft) Imagen 5 de 8

Benchmarks Milan-X (Crédito de la imagen: Microsoft) Imagen 6 de 8

Benchmarks Milan-X (Crédito de la imagen: Microsoft) Imagen 7 de 8

Benchmarks Milan-X (Crédito de la imagen: Microsoft) Imagen 8 de 8

Benchmarks Milan-X (Crédito de la imagen: Microsoft)

Microsoft probó el EPYC 7V73X y comparó el chip Milan-X con las VM Azure HBv3 de la compañía con los procesadores EPYC Milan, EPYC Rome y Xeon Platinum (Skylake). No hace falta decir que el rendimiento de Milan-X es simplemente increíble.

En la configuración de 64 VM, Milan-X ofreció un rendimiento hasta un 77% mejor que el Milan y fue hasta un 257% más rápido que Skylake con el modelo f1_racecar_140 en el Ansys Fluent 2021 R1. Con el modelo combustor_830m, Milan-X registró cifras de rendimiento un 16% y un 131% más altas que las de Milan y Skylake, respectivamente, con la disposición de 128 VM.

En el benchmark OpenFOAM Motorbike, Milan-X fue hasta un 60% más rápido que Milán y un 305% más rápido que Skylake en la configuración de 8 VM. La tendencia fue clara con Milan-X mostrando mejoras de rendimiento de dos dígitos sobre su predecesor y mejoras de tres dígitos sobre Skylake.

Benchmarks Milan-X (Crédito de la imagen: Microsoft)

Gracias a la implementación de 3D V-Cache de AMD, la eficiencia de escalamiento de Milan-X fue extraordinaria. Utilizando el benchmark Ansys Fluent 2021 R1 con el modelo f1_racecar_140 como punto de referencia, Milan-X demostró una eficiencia de escalado de hasta el 200% al comparar 64 VM con 1 VM. En otras palabras, 64 máquinas virtuales HBv3 con Milan-X hacen la mitad del trabajo, mientras que se necesitaría una instancia de HBv3. Al final del día, los clientes se benefician de una reducción del 50% en los costos de VM a una tasa de tiempo de resolución 127 veces más rápida.

Microsoft siempre se ha enorgullecido de ofrecer a sus clientes aumentos lineales de rendimiento. La eficiencia lineal, considerada el estándar de oro en HPC, es cuando el rendimiento aumenta linealmente con el costo en comparación con una VM (o la cantidad mínima de VM para resolver un problema). Con Milan-X, los clientes de Microsoft pueden disfrutar de tiempos de respuesta sustancialmente más rápidos y menores costos de VM.