Tachyum presenta propuesta para construir 20 superordenadores Exaflops

26/08/2022

Tachyum dijo el martes que presentó una oferta al Departamento de Energía para construir una supercomputadora de 20 exaflops para 2025. La máquina se basaría en los procesadores Prodigy de próxima generación de la compañía, con una microarquitectura patentada que se puede usar para diferentes tipos de computación cargas de trabajo .

El Departamento de Energía de EE. UU. quiere que se entregue una supercomputadora de 20 exaflop con un consumo de energía de 20MW–60MW para 2025. El sistema se instalará en el Laboratorio Nacional de Oak Ridge (ORNL) y complementará el sistema Frontier del laboratorio que entró en funcionamiento a principios de este año.

Tachyum no revela qué hardware propuso al DoE, pero solo dice que tiene su procesador Prodigy de 128 núcleos hoy, así como un procesador Prodigy 2 de mayor rendimiento en su hoja de ruta, por lo que es seguro decir que para 2025 tendrá el último en la mano y podría ser capaz de abordar el próximo sistema.

Prodigy de Tachyum es un procesador universal homogéneo que contiene hasta 128 núcleos VLIW de 64 bits patentados que cuentan con dos unidades vectoriales de 1024 bits por núcleo y una unidad de matriz de 4096 bits por núcleo. Tachyum esperaba que su procesador insignia Prodigy T16128-AIX (se abre en una nueva pestaña) ofreciera hasta 90 teraflops FP64 para HPC, así como hasta 12 ‘petaflops de IA’ para inferencia y entrenamiento de IA (presuntamente al ejecutar cargas de trabajo INT8 o FP8). El Prodigy consume hasta 950 W y utiliza refrigeración líquida.

Todo esto fue antes de que Tachyum demandara a Cadence, su proveedor de propiedad intelectual, por el desempeño deficiente de su procesador Prodigy. No tenemos idea de cuáles son las expectativas de rendimiento actuales para el chip.

En teoría, Tachyum podría impulsar un sistema exaflops usando más de 11,000 de sus procesadores Prodigy, aunque el consumo de energía de tal máquina sería gigantesco. Presumiblemente, el Prodigy 2 tiene más posibilidades de satisfacer las necesidades de un sistema de exaescala de próxima generación que el Prodigy original.

Actualmente hay una supercomputadora de clase exaflop en los EE. UU., el sistema Frontier 1.1 exaflop en el Laboratorio Nacional de Oak Ridge (ORNL), basado en las CPU EPYC de 64 núcleos de AMD, así como en las GPU informáticas Instinct MI250X. Hay dos sistemas de exaescala más que se están construyendo en los EE. UU., la máquina Aurora de 2 exaflops con tecnología de procesadores Intel Xeon Scalable de cuarta generación y GPU de computación Xe-HPC (también conocido como Ponte Vecchio), así como la supercomputadora El Capitan». >2 exaflops» basado en las CPU EPYC de arquitectura Zen 4 de AMD y las GPU Instinct MI300.

Una de las cosas interesantes de los planes de supercomputación del Departamento de Energía es que, a partir de ahora, desea actualizar sus recursos informáticos de alto rendimiento cada 12 o 24 meses, no cada 4 o 5 años. Como resultado, el DoE estará más ansioso por adoptar arquitecturas exóticas como Tachyum’s Prodigy que en la actualidad.

«También queremos explorar el desarrollo de un enfoque que se aleje de las adquisiciones monolíticas hacia un modelo que permita ciclos de actualización más rápidos de los sistemas implementados, para permitir una innovación más rápida en hardware y software», se lee en un documento del Departamento de Energía. «Una estrategia posible incluiría aumentar la reutilización de la infraestructura existente para que las actualizaciones sean modulares. Un objetivo sería reinventar la arquitectura de sistemas y un proceso de adquisición eficiente que permita la inyección continua de avances tecnológicos en una instalación (por ejemplo, cada 12-24 meses en lugar de cada 4-5 años). Comprender las ventajas y desventajas de estos enfoques es un objetivo de esta RFI, e invitamos a que las respuestas incluyan los beneficios y/o desventajas percibidos de este enfoque de actualización modular».

Una de las ventajas que tiene Tachyum’s Prodigy sobre las CPU y GPU tradicionales para cargas de trabajo de IA y HPC es que está adaptado para ambos tipos de cargas de trabajo, por lo que Prodigy se puede usar para IA cuando no se utilizan los recursos de HPC y viceversa. El DoE puede o no adoptar Tachyum para cualquiera de sus próximas supercomputadoras, pero la compañía espera obtener un contrato adecuado.