Las supercomputadoras chinas han atraído recientemente mucha atención de las comunidades de hardware y computación de alto rendimiento (HPC) después de las sanciones impuestas por el gobierno de EE. UU. En octubre, al menos dos supercomputadoras chinas rompieron la llamada barrera de la exaescala. Y durante la conferencia SuperComputing 21 (SC21), los informes afirmaron que se está desarrollando otra supercomputadora de exaescala china. Sin embargo, parece haber un problema importante con estas máquinas.
Tres sistemas de exaescala
David K. Kahaner, experto en HPC y fundador del Programa de Información Tecnológica Asiática (ATIP), hizo una presentación sobre supercomputadoras modernas en China en SC21. Afortunadamente, partes de esta presentación fueron publicadas por Koji Uchikawa en una publicación de Twitter (a través de ComputerBase). Reveló que Tianxia tiene varios sistemas en línea de 100 a 500 PFLOPS basados en tecnologías patentadas o hardware AMD, Intel y Nvidia disponible comercialmente. También reiteró que existen dos sistemas de clase exaescala en China y que otro sistema en desarrollo se ha retrasado.
(Crédito de la imagen: ATIP / Koji Uchikawa Twitter)
Como se informó anteriormente, la supercomputadora china con mejor desempeño es el sistema Tianhe-3 ubicado en el Centro Nacional de Supercomputadoras en Guangzhou, China, según ATIP. La máquina utiliza procesadores Phytium 2000+ (FTP) basados en Armv8 para cargas de trabajo HPC tradicionales con total precisión FP64. Se basa en aceleradores DSP Matrix 2000+ (MTP) para cargas de trabajo emergentes como la IA que no requieren precisión FP64 en todo momento. UNA PISTA dice que el sistema tiene una clasificación de alrededor de 1300 PFLOPS (1,3 EFLOPS).
La segunda supercomputadora de mayor rendimiento de China es Sunway Oceanlite, ubicada en el Centro Nacional de Investigación de Ingeniería y Tecnología de Computación Paralela (NRCPC). Utiliza procesadores Sunway patentados de 390 núcleos que se derivan de las CPU Sunway SW26010. ATIP estima que el rendimiento sostenible de la máquina es de alrededor de 1050 PFLOPS (1,05 EFLOPS).
(Crédito de la imagen: ATIP / Koji Uchikawa Twitter)
El Centro Nacional de Supercomputación de Shenzhen también propuso un sistema de clase EFLOPS hace varios años. Esta supercomputadora fue configurada para ser diseñada por Sugon y debía enviarse en 2022. Sin embargo, la división de procesadores Hygon de Sugon ya no tiene acceso a las tecnologías AMD (incluida la microarquitectura de CPU Zen para sus procesadores Dhyana y las GPU de computación AMD para aceleradores) debido al gobierno de EE. UU. restricciones. Por lo tanto, no está claro cómo planea la empresa entregar el sistema. Los expertos de ATIP creen que NSCC y Sugon necesitarán encontrar una nueva plataforma de hardware con capacidad de exaescala para implementar la supercomputadora. Mientras tanto, el mensaje principal aquí es que China claramente quiere otra supercomputadora de alto rendimiento.
Todo es cuestión de precisión
Cabe señalar que los especialistas en supercomputación como Top500.org miden el rendimiento computacional de las supercomputadoras en número de operaciones de punto flotante de doble precisión (64 bits) por segundo (FLOPS), o en FP64 FLOPS, utilizando el punto de referencia LINPACK. Si bien los procesadores pueden realizar FLOPS con menos precisión y más rápido, el estándar común para el rendimiento de HPC es FP64 FLOPS obtenido de LINPACK.
Cuando informamos sobre los dos sistemas de exaescala chinos el mes pasado, dijimos que ambos se probaron utilizando el punto de referencia LINPACK (lo que significa que los resultados fueron, por definición, FP64 FLOPS), tal como NextPlatform describió su rendimiento. Ninguno de los sitios de supercomputación envió cifras de rendimiento a Top500.org, pero algunos observadores creen que querían proteger a sus proveedores de las sanciones del gobierno de EE. UU.
Pero mientras que los expertos chinos en supercomputadoras fueron muy tímidos o cautelosos a la hora de enviar sus resultados al renombrado rastreador de rendimiento de supercomputadoras, los investigadores de NRCPC presentaron los resultados de la máquina Sunway Oceanlite para otro gran premio de supercomputación, el Premio Gordon Bell, informa NextPlatform. Para obtener el trofeo Gordon Bell, un sistema necesita simular el circuito Sycamore de 53 qubit (la arquitectura cuántica de Google introducida hace varios años), y Sunway Oceanlite lo hizo en 304 segundos. Mientras tanto, un equipo del Laboratorio Nacional de Oak Ridge (ORNL) estimó que la supercomputadora Summit (una máquina de 200 PFLOPS) tardaría unos 10.000 años en simular Sycamore. Por el contrario, la máquina Sycamore de 53 qubit hizo el trabajo en 200 segundos.
Resulta que, para obtener el resultado espectacular, los ingenieros de NRCPC redujeron la precisión de la simulación, lo que se denomina trampa en el mundo de las pruebas de rendimiento de PC.
«En su trabajo ganador del premio Gordon Bell, los investigadores chinos introdujeron un proceso de diseño sistemático que cubre el algoritmo, la paralelización y la arquitectura necesarios para la simulación», dijo el desarrollador de ORNL, Dmitry Liakh, a NextPlatform. «Usando una nueva supercomputadora Sunway, el equipo chino simuló efectivamente un circuito cuántico aleatorio 10x10x (1 + 40 + 1) (un nuevo hito para la simulación RQC clásica). La simulación logró un rendimiento de 1.2 EFLOPS (un quintillón de flotación de precisión simple operaciones de puntos por segundo) o 4,4 EFLOPS de precisión mixta, utilizando más de 41,9 millones de núcleos Sunway.
Si bien manipular la simulación de Sycamore es algo deplorable, revela que el sistema Sunway Oceanlite es capaz de lograr un rendimiento de 1.2 FP32 EFLOPS en este algoritmo en particular. Por razones obvias, no podemos comparar los resultados supuestamente obtenidos en LINPACK y los resultados obtenidos en la simulación Sycamore. Sin embargo, uno solo puede preguntarse cómo un sistema que supuestamente logró 1.05 FP64 EFLOPS en un punto de referencia solo logró lograr 1.2 FP32 EFLOPS en otro.
Estas inconsistencias en los números de rendimiento arrojan dudas sobre si los números de rendimiento iniciales de LINPACK para las supercomputadoras Oceanlite y Tianhe-3 eran correctos.
Resumen
Si bien las empresas chinas pueden diseñar hardware HPC para sistemas de petaescala, no parece que puedan construir una máquina a exaescala con un consumo de energía aceptable. Aún así, China obviamente quiere mostrar sus habilidades de supercomputación, razón por la cual el NRCPC no ha rehuido supuestamente manipular un resultado de referencia de simulación cuántica.
Por el momento, es posible que los procesadores y aceleradores chinos no sean tan rápidos como sus competidores diseñados en EE. UU. Sin embargo, si China puede producirlos en grandes volúmenes, podría construir más de 100 a 500 máquinas FP64 PFLOPS para aumentar su competencia científica. Además, si necesita un rendimiento similar a la exaescala a cualquier potencia, puede intentar escalar sus diseños existentes para llegar allí. Mientras tanto, el problema es que los desarrolladores de CPU Sunway y Phytium están incluidos en la lista negra en los EE. UU., Lo que les dificulta enormemente desarrollar y construir procesadores.
(Crédito de la imagen: ATIP / Koji Uchikawa Twitter)
Es irónico que de los tres diseños propuestos a exaescala, el que podría lograr un rendimiento de 1 EFLOPS FP64 (y que tuvo que cancelarse) se basó en una combinación de la CPU Hygon basada en AMD Zen y la GPU de cómputo AMD Instinct.