Inicio / Tecnología e Informática / Intel lanza CPU y GPU Xeon Max para competir con AMD y Nvidia

Intel lanza CPU y GPU Xeon Max para competir con AMD y Nvidia

Intel

Apenas unos días antes del comienzo de Supercomputing 22, Intel presentó (se abre en una nueva pestaña) su CPU Xeon Max de próxima generación, anteriormente con el nombre en código Sapphire Rapids HBM, y las GPU de computación de la serie Data Center GPU Max, conocidas como Ponte Vecchio. Los nuevos productos abordan diferentes tipos de cargas de trabajo informáticas de alto rendimiento o trabajan juntos para resolver las tareas de supercomputación más complejas.

CPU Xeon Max: Sapphire Rapids obtiene 64GB HBM2E

Los procesadores x86 de propósito general se han utilizado para prácticamente todos los tipos de informática técnica durante décadas y, por lo tanto, admiten muchas aplicaciones. Sin embargo, si bien el rendimiento de los núcleos de CPU de uso general ha aumentado rápidamente a lo largo de los años, los procesadores actuales tienen dos limitaciones significativas en lo que respecta al rendimiento en cargas de trabajo de inteligencia artificial y HPC: paralelización y ancho de banda de memoria. Los procesadores Intel Xeon Max ‘Sapphire Rapids HBM’ prometen eliminar ambos límites.

Imagen 1 de 3

inteligencia(Crédito de la imagen: Intel)inteligencia(Crédito de la imagen: Intel)inteligencia(Crédito de la imagen: Intel)

El procesador Intel Xeon Max cuenta con hasta 56 núcleos Golden Cove de alto rendimiento (distribuidos en cuatro chipsets interconectados que utilizan la tecnología EMIB de Intel) mejorados aún más con múltiples motores aceleradores para cargas de trabajo de IA y HPC y 64 GB de memoria HBM2E integrada. Al igual que otras CPU Sapphire Rapids, el Xeon Max seguirá admitiendo ocho canales de memoria DDR5 e interfaz PCIe Gen 5 con el protocolo CXL 1.1 en la parte superior, por lo que será compatible con todos los aceleradores habilitados para CXL cuando tenga sentido.

Además de la compatibilidad con los aceleradores vectoriales AVX-512 y Deep Learning Boost (AVX512_VNNI y AVX512_BF16), los nuevos núcleos también incluyen el acelerador de multiplicación de matriz de mosaico Advanced Matrix Extensions (AMX), que es esencialmente una cuadrícula de unidades de suma y multiplicación. que admiten los tipos de entrada BF16 e INT8 que se pueden programar usando solo 12 instrucciones y realizan hasta 1024 operaciones TMUL BF16 o 2048 TMUL INT8 por ciclo por núcleo. Además, la nueva CPU es compatible con Data Streaming Accelerator (DSA), que descarga las cargas de trabajo de transformación y copia de datos de la CPU.

Los 64 GB de memoria HBM2E en el paquete (cuatro pilas de 16 GB) proporcionan un ancho de banda máximo de aproximadamente 1 TB/s, lo que se traduce en ~1,14 GB de HBM2E por núcleo a 18,28 GB/s por núcleo. Para poner los números en contexto, un procesador Sapphire Rapids de 56 núcleos equipado con ocho módulos DDR5-4800 alcanza los 307,2 GB/s de ancho de banda, lo que significa 5,485 GB/s por núcleo. Mientras tanto, Xeon Max puede usar su memoria HBM2E de diferentes maneras: utilícela como memoria del sistema, lo que no requiere cambios de código; utilícelo como un caché de alto rendimiento para el subsistema de memoria DDR5, que no requiere cambiar el código; utilícelo como parte de un grupo de memoria unificado (modo plano HBM), que implica optimizaciones de software.

Según la carga de trabajo, el procesador Xeon Max habilitado para AMX de Intel puede proporcionar una mejora del rendimiento de 3X a 5,3X con respecto al procesador Xeon Scalable 8380 actualmente disponible que utiliza el procesamiento FP32 convencional para las mismas cargas de trabajo. Mientras tanto, en aplicaciones como el desarrollo de modelos para dinámica molecular, las nuevas CPU equipadas con HBM2E son hasta 2,8 veces más rápidas que la EPYC 7773X de AMD, que cuenta con 3D V-Cache.

Imagen 1 de 13

inteligencia(Crédito de la imagen: Intel)inteligencia(Crédito de la imagen: Intel)inteligencia(Crédito de la imagen: Intel)inteligencia(Crédito de la imagen: Intel)inteligencia(Crédito de la imagen: Intel)inteligencia(Crédito de la imagen: Intel)inteligencia(Crédito de la imagen: Intel)inteligencia(Crédito de la imagen: Intel)inteligencia(Crédito de la imagen: Intel)inteligencia(Crédito de la imagen: Intel)inteligencia(Crédito de la imagen: Intel)inteligencia(Crédito de la imagen: Intel)inteligencia(Crédito de la imagen: Intel)

Pero HBM2E tiene otra implicación importante para Intel, ya que reduce ligeramente la sobrecarga de mover datos entre la CPU y la GPU, lo cual es fundamental para muchas cargas de trabajo de HPC. Eso nos lleva al segundo anuncio de hoy: las GPU de cómputo de la serie Max de GPU para centros de datos.

Data Center GPU Max: el pináculo de las innovaciones del centro de datos de Intel

La serie de GPU Computing GPU Max Data Center GPU empleará la arquitectura Ponte Vecchio con nombre en código de la compañía, presentada por primera vez en 2019 y detallada en 2020 ~ 2021. Ponte Vecchio de Intel es el procesador más complejo jamás creado, ya que contiene más de 100 mil millones de transistores (sin incluir la memoria) en 47 bloques (incluidos 8 bloques HBM2E). Además, el producto hace un amplio uso de las tecnologías de empaquetado avanzadas de Intel (por ejemplo, EMIB), ya que otros fabricantes fabrican diferentes placas utilizando diferentes tecnologías de proceso.

Imagen 1 de 6

inteligencia(Crédito de la imagen: Intel)inteligencia(Crédito de la imagen: Intel)inteligencia(Crédito de la imagen: Intel)inteligencia(Crédito de la imagen: Intel)inteligencia(Crédito de la imagen: Intel)inteligencia(Crédito de la imagen: Intel)

Las GPU de cómputo GPU Max Data Center de Intel contarán con la arquitectura Xe-HPC de la compañía específicamente diseñada para cargas de trabajo de IA y HPC y, por lo tanto, admitirán formatos de datos e instrucciones apropiados, así como matrices de 512 bits y motores de renderizado (tensor) de 4096 bits. .

Deslice para desplazarse horizontalmente Encabezado de celda – Columna 0 Centro de datos máx. 1100Centro de datos máx. 1350Centro de datos máx. 1550AMD Instinct MI250XNvidia H100Nvidia H100Rialto Bridge Form-FactorPCIeOAMOAMOAMSXMPCIeOAM Tiles + Memory??39+82+81+61+6many Transistores?? Núcleos HPC Xe | Unidades de cómputo56112128220132114160 Núcleos HPC Xe mejorados Núcleos RT56112128—? Motores vectoriales de 512 bits4488961024???? Motores Matrix de 4096 bits4488961024???? Caché L1??64 MB a 105 TB/s???? Caché L2 Rambo 408 MB a 13 TB/s 50 MB 50 MB HBM2E48GB96GB128GB a 3,2 TB/s 128 GB/s 3,2 TB/s80 GB a 3,35 TB/s 8 GB a 2 TB/s? Multi-GPU IO81616888? Potencia300W450W600W560W700W350W800W

En comparación con Xe-HPG, Xe-HPC tiene subsistemas de memoria y caché considerablemente más sofisticados, núcleos Xe configurados de manera diferente (cada núcleo Xe-HPG tiene 16 motores vectoriales de 256 bits y 16 motores de matriz de 1024 bits, mientras que cada núcleo Xe-HPC tiene ocho motores vectoriales de 512 bits y ocho motores vectoriales de 4096 bits). Además, las GPU Xe-HPC no tienen unidades de textura ni backends de renderizado, por lo que no pueden renderizar gráficos con métodos tradicionales. Mientras tanto, Xe-HPG admite sorprendentemente el trazado de rayos para la visualización de supercomputadoras.

Uno de los ingredientes más importantes de Xe-HPC son las Xe Matrix Extensions (XMX) de Intel, que permiten el formidable rendimiento de tensor/matriz de Intel Data Center GPU Max 1550 (consulte la tabla a continuación): hasta 419 TF32 TFLOPS y hasta 1678 TFLOPS TOPS INT8, según Intel. Por supuesto, las cifras de rendimiento máximo proporcionadas por los desarrolladores de procesamiento de GPU son importantes, pero es posible que no reflejen el rendimiento que se puede lograr en las supercomputadoras del mundo real en las aplicaciones del mundo real. Aún así, uno no puede dejar de notar que el Ponte Vecchio de Intel va muy por detrás del H100 de Nvidia en la mayoría de los casos y no ofrece ventajas tangibles sobre el Instinct MI250X de AMD en todos los casos excepto en el FP32 Tensor (TF32).

Deslice para desplazarse horizontalmente Celda de encabezado – Columna 0 Centro de datos Max 1550AMD Instinct MI250XNvidia H100Nvidia H100 Factor de formaOAMOAMSXMPCIe HBM2E128GB @ 3.2TB/s128GB/s 3.2TB/s80GB @ 3.35TB/s80GB @ 2TB/s Power600W560W7300W3 Peak.8 T14 FLOPS Vector 02.8 T14 FLOPS BF16 Vector? TOPS DE 1979 | 3958 TOPS*1513 TOPS | 3026 TOPS* Pico FP16 Tensor839 TFLOPS?989 TFLOPS | 1979 TFLOPS*756 TFLOPS | 1513 TFLOPS* Pico BF16 Tensor839 TFLOPS?989 TFLOPS | 1979 TFLOPS*756 TFLOPS | 1513 TFLOPS* Pico FP32 Tensor419 TFLOPS95,7 TFLOPS989 TFLOPS756 TFLOPS Pico FP64 Tensor-95,7 TFLOPS67 TFLOPS51 TFLOPS

Mientras tanto, Intel dice que su Data Center GPU Max 1550 es 2,4 veces más rápido que el A100 de Nvidia al precio de la opción de crédito Riskfuel y ofrece una mejora de rendimiento de 1,5 veces sobre el A100 para simulaciones de reactores virtuales NekRS.

Intel planea ofrecer tres productos Ponte Vecchio: la GPU Max 1550 para centro de datos de gama alta en factor de forma OAM con 128 núcleos Xe-HPC, 128 GB de memoria HBM2E y una capacidad nominal de hasta 600 W de potencia de diseño térmico; el delgado Data Center GPU Max 1350 en factor de forma OAM con 112 núcleos Xe-HPC, 96 GB de memoria y un TDP de 450 W; y la GPU Max 1100 para centros de datos de nivel de entrada que viene en un factor de forma FLFH de ancho doble y lleva un procesador Xe-HPC de 56 núcleos, tiene 56 GB de memoria HBM2E y está clasificado para un TDP de 300 W.

Mientras tanto, para sus clientes de supercomputadoras, Intel ofrecerá subsistemas de la serie Max con cuatro módulos OAM en una placa de soporte clasificada para 1800W y 2400W TDP.

Imagen 1 de 17

inteligencia(Crédito de la imagen: Intel)inteligencia(Crédito de la imagen: Intel)inteligencia(Crédito de la imagen: Intel)inteligencia(Crédito de la imagen: Intel)inteligencia(Crédito de la imagen: Intel)inteligencia(Crédito de la imagen: Intel)inteligencia(Crédito de la imagen: Intel)inteligencia(Crédito de la imagen: Intel)inteligencia(Crédito de la imagen: Intel)inteligencia(Crédito de la imagen: Intel)inteligencia(Crédito de la imagen: Intel)inteligencia(Crédito de la imagen: Intel)inteligencia(Crédito de la imagen: Intel)inteligencia(Crédito de la imagen: Intel)inteligencia(Crédito de la imagen: Intel)inteligencia(Crédito de la imagen: Intel)inteligencia(Crédito de la imagen: Intel)

Puente Rialto de Intel: Mejorar al máximo

Además de presentar formalmente sus GPU de computación Max GPU para centros de datos, Intel también echó un vistazo a su GPU de centro de datos de próxima generación, cuyo nombre en código es Rialto Bridge, que llegará en 2024. Esta GPU de IA y computación HPC se basará en núcleos Xe – HPC. , presumiblemente con una arquitectura ligeramente diferente, pero mantendrá la compatibilidad con las aplicaciones basadas en Ponte Vecchi. Desafortunadamente, esta complejidad adicional aumentará el TDP de la GPU informática insignia de próxima generación a 800 W, aunque hay versiones más simples y que consumen menos energía.

Disponibilidad

Uno de los primeros clientes en obtener productos Intel Xeon Max e Intel Data Center GPU Max será Argonne National Laboratory, que está construyendo sus más de 2 supercomputadoras ExaFLOPS basadas en más de 10 000 blades que utilizan CPU Xeon Max y dispositivos Data Center GPU Max (dos CPU y seis GPU por hoja). Además, Intel y Argonne están terminando de construir Sunspot, el sistema de desarrollo de prueba de Aurora compuesto por 128 blades de producción que estará disponible para las partes interesadas a fines de 2022. Se espera que la supercomputadora Aurora entre en funcionamiento en 2023.

Los socios de Intel entre los fabricantes de servidores lanzarán máquinas basadas en CPU Xeon Max y dispositivos GPU Max para centros de datos en enero de 2023.