Aurora, supercomputador exaescala de Argonne, une HPE e Intel Serie Max para impulsar simulación científica e inteligencia artificial.

Aurora es una de las instalaciones de supercomputación más grandes del mundo, con ocho filas de racks que ocupan el espacio de dos canchas de baloncesto. | Créditos: Argonne National Laboratory
Más allá del récord de FLOPS, Aurora, el supercomputador de Argonne, es una filosofía de diseño centrada en integrar la simulación junto a la IA como parte de un mismo flujo para el trabajo científico.
Aurora no solo busca ser la más rápida, sino la más versátil. Su verdadero potencial se ve en cómo combina simulación científica e inteligencia artificial en una misma arquitectura. ¿Qué dicen sus cifras?
Esta idea refleja una serie de métricas que describen el perfil técnico de Aurora, tanto en simulación científica como en inteligencia artificial.
Rmax (HPL, doble precisión): Indica la capacidad real de Aurora para resolver operaciones matemáticas complejas, como las que se usan en simulaciones científicas. Es el valor utilizado para compararlo con otros supercomputadores en rankings internacionales.
Rpeak teórico: Representa el rendimiento máximo que Aurora podría alcanzar si todo su hardware funcionara sin pérdidas ni limitaciones. Es una referencia técnica que no siempre se refleja en el uso práctico.
Rendimiento en HPL-MxP: Mide cuán eficiente es Aurora en tareas de inteligencia artificial, donde se utilizan formatos numéricos más rápidos y de menor precisión. Refleja su capacidad para entrenar modelos de IA de gran escala con alto rendimiento.
Número de GPUs: Las GPUs permiten realizar millones de cálculos en paralelo, y Aurora integra más de 63.000 unidades. Esta cantidad masiva le otorga una ventaja clave para trabajar con simulaciones complejas y grandes volúmenes de datos.
Consumo energético (en HPL): Corresponde a la electricidad que necesita Aurora bajo carga máxima. Aunque el consumo es alto, está dentro del rango esperado para un sistema de esta magnitud y potencia.
El Argonne Leadership Computing Facility (ALCF), del Departamento de Energía de Estados Unidos (DOE), es la instalación que alberga el supercomputador Aurora.
Desde 2006, el ALCF ha operado recursos de alto rendimiento para la investigación científica, pero con Aurora da el salto a la computación exaescala como parte de su estrategia nacional.
Aurora es el sistema más potente del centro y se integra a una infraestructura que también incluye:
Esta combinación posiciona al ALCF como uno de los núcleos globales en convergencia entre simulación y aprendizaje automático.
En esta sección veremos:
Aurora fue construido sobre la plataforma HPE Cray EX, una proeza de la ingeniería que ocupa el espacio equivalente a dos canchas de baloncesto.
El sistema está distribuido en 166 gabinetes que albergan un total de 10.624 nodos de cómputo, conocidos como nodos tipo blade, y su verdadera innovación reside en la forma en que combina CPUs y GPUs en cada nodo, conectados por una red de alta velocidad y gestionados como un sistema único.
Aurora se construye sobre la base de gabinetes modulares sellados, refrigerados por líquido, que maximizan el rendimiento y la densidad energética.
Cada gabinete EX4000 puede alojar hasta 64 blades de cómputo, organizados internamente en 8 chasis. Su arquitectura modular permite escalar el sistema de forma flexible.
La integración entre CPU, GPU, memoria RAM y red de alta velocidad (HPE Slingshot) es clave para el rendimiento de Aurora como sistema unificado.
Varios blades se organizan dentro de cada gabinete junto a unidades de refrigeración, distribución eléctrica y conectividad de red.
Los chasis son unidades mecánicas que organizan y distribuyen la energía, refrigeración y conectividad para los blades.
Cada blade funciona como una mini computadora de alto rendimiento, integrando CPU, GPU, memoria RAM y placas aceleradoras en un solo módulo.
Es importante destacar que la plataforma de HPE Cray forma parte de 7 SuperPCs del top10 del ranking TOP500: El Capitán, Frontier, Aurora, HPC6, Alps, LUMI y Tuolumne.
Cada nodo integra dos CPUs Intel Xeon Max 9470, sumando 21.248 procesadores en total. Las unidades de 52 núcleos destacan por incluir 64 GB de memoria HBM2e integrada en el encapsulado, lo que permite reducir cuellos de botella y actuar como una caché de alta velocidad junto a los 512 GB de DDR5 convencionales.
El motor principal de cálculo son las 63.744 GPUs Intel Data Center GPU Max 1550, que emplean un diseño modular basado en chiplets activos fabricados en distintos nodos de proceso e integrados con la tecnología de empaquetado 3D Foveros.
Cada GPU alberga 128 núcleos Xe y 1.024 motores XMX, hardware especializado que acelera multiplicaciones de matrices, la base de los algoritmos de inteligencia artificial.
Aurora coordina millones de núcleos en paralelo mediante la red HPE Slingshot 11, que emplea una topología Dragonfly de bajo diámetro y soporta tráfico HPC e IP sin pasarelas adicionales.
Dicho de otro modo, la red Slingshot 11 puede compararse con una autopista de alto tráfico, diseñada para mover distintos tipos de vehículos sin atascos ni desvíos innecesarios.
Uno de los mayores cuellos de botella en sistemas de computación exaescala está en el acceso a los datos. Para resolverlo, Aurora utiliza DAOS (Distributed Asynchronous Object Storage), un sistema de almacenamiento distribuido y asincrónico diseñado específicamente para cargas de alto rendimiento.
Supongamos que DAOS funciona como un tren de carga ultrarrápido con acceso directo a cada vagón, sin estaciones intermedias que frenen su recorrido. Visto desde Aurora, permite mover datos con máxima velocidad y eficiencia, incluso bajo grandes volúmenes:
Aurora separa el cómputo del almacenamiento. Cada tipo de nodo está diseñado para su función y conectado por una red ultrarrápida.
Este esquema opera sobre memorias no volátiles y accede directamente desde el espacio de usuario, evitando pasar por el kernel del sistema operativo. El resultado: latencias extremadamente bajas en lectura y escritura de datos, incluso bajo cargas masivas.
Gracias a DAOS, Aurora no solo calcula rápido, sino que también alimenta y recoge datos con la misma eficiencia. Esta capacidad ha sido clave para que lidere el ranking IO500, que mide el rendimiento de almacenamiento en sistemas HPC.
Características principales en Aurora:
Aurora emplea un sistema de refrigeración líquida a gran escala que permite disipar el calor generado por más de 10.000 nodos distribuidos en 166 gabinetes. El diseño considera canales de enfriamiento en cada blade de cómputo, de manera que el calor se extrae directamente de CPUs, GPUs y memorias de alto ancho de banda.
En total, se hacen circular 44.000 galones de agua a través de un circuito cerrado. Este esquema resulta indispensable para mantener bajo control la temperatura de una máquina que alcanza consumos de hasta 38,7 megavatios durante la ejecución de cargas intensivas.
El diseño modular de los blade de cómputo aporta ventajas de operación ya que cada gabinete integra su propio circuito de enfriamiento, lo que reduce el riesgo de puntos calientes y permite realizar tareas de mantenimiento sin detener el sistema completo.
Aurora no fue pensado solo para romper récords de cómputo, sino para habilitar proyectos científicos en áreas diversas, que van desde biología molecular hasta cosmología, el supercomputador se utiliza como plataforma dual de simulación e inteligencia artificial.
El SuperPC de Argonne permite acelerar el diseño de nuevos fármacos, modelar reactores nucleares, estudiar la turbulencia en fluidos, analizar datos astronómicos a gran escala y explorar la energía de fusión, entre otros desafíos.
La siguiente tabla resume los principales dominios de investigación en los que Aurora está teniendo impacto.