Categorías: Noticias

El supercomputador exaescala Aurora integra tecnología HPE e Intel Serie Max para la computación científica

Aurora, supercomputador exaescala de Argonne, une HPE e Intel Serie Max para impulsar simulación científica e inteligencia artificial.

Compartir

Más allá del récord de FLOPS, Aurora, el supercomputador de Argonne, es una filosofía de diseño centrada en integrar la simulación junto a la IA como parte de un mismo flujo para el trabajo científico.

Aurora no solo busca ser la más rápida, sino la más versátil. Su verdadero potencial se ve en cómo combina simulación científica e inteligencia artificial en una misma arquitectura. ¿Qué dicen sus cifras?

  • 11.6 exaFLOPS (HPL-MxP): Capacidad enfocada en inteligencia artificial, usando formatos de precisión mixta más rápidos y eficientes.
  • 1.012 exaFLOPS (HPL): Rendimiento real en simulaciones físicas y cálculos científicos de alta precisión.
Supercomputador AUROA con racks HPE, Blade de Intel con CPU Xeon Max y GPU Data Center max | Créditos: Argonne

¿Cómo se traduce el rendimiento de Aurora en cifras concretas?

Esta idea refleja una serie de métricas que describen el perfil técnico de Aurora, tanto en simulación científica como en inteligencia artificial.

Las métricas de la tabla

Rmax (HPL, doble precisión): Indica la capacidad real de Aurora para resolver operaciones matemáticas complejas, como las que se usan en simulaciones científicas. Es el valor utilizado para compararlo con otros supercomputadores en rankings internacionales.

Rpeak teórico: Representa el rendimiento máximo que Aurora podría alcanzar si todo su hardware funcionara sin pérdidas ni limitaciones. Es una referencia técnica que no siempre se refleja en el uso práctico.

Rendimiento en HPL-MxP: Mide cuán eficiente es Aurora en tareas de inteligencia artificial, donde se utilizan formatos numéricos más rápidos y de menor precisión. Refleja su capacidad para entrenar modelos de IA de gran escala con alto rendimiento.

Número de GPUs: Las GPUs permiten realizar millones de cálculos en paralelo, y Aurora integra más de 63.000 unidades. Esta cantidad masiva le otorga una ventaja clave para trabajar con simulaciones complejas y grandes volúmenes de datos.

Consumo energético (en HPL): Corresponde a la electricidad que necesita Aurora bajo carga máxima. Aunque el consumo es alto, está dentro del rango esperado para un sistema de esta magnitud y potencia.

Argonne Leadership Computing Facility (ALCF): El hogar de Aurora

El Argonne Leadership Computing Facility (ALCF), del Departamento de Energía de Estados Unidos (DOE), es la instalación que alberga el supercomputador Aurora.

Campos de Argonne | Créditos: Argonne

Desde 2006, el ALCF ha operado recursos de alto rendimiento para la investigación científica, pero con Aurora da el salto a la computación exaescala como parte de su estrategia nacional.

Aurora es el sistema más potente del centro y se integra a una infraestructura que también incluye:

  • Supercomputador Polaris
  • Supercomputador al AI Testbed, orientado a cargas de inteligencia artificial.

Esta combinación posiciona al ALCF como uno de los núcleos globales en convergencia entre simulación y aprendizaje automático.

Anatomía de Aurora: Un vistazo en su arquitectura

En esta sección veremos:

  • Arquitectura HPE Cray EX
  • Red de interconexión HPE Slingshot 11
  • Sistema de almacenamiento DAOS

Arquitectura HPE Cray EX

Aurora fue construido sobre la plataforma HPE Cray EX, una proeza de la ingeniería que ocupa el espacio equivalente a dos canchas de baloncesto.

El sistema está distribuido en 166 gabinetes que albergan un total de 10.624 nodos de cómputo, conocidos como nodos tipo blade, y su verdadera innovación reside en la forma en que combina CPUs y GPUs en cada nodo, conectados por una red de alta velocidad y gestionados como un sistema único.

Aurora se construye sobre la base de gabinetes modulares sellados, refrigerados por líquido, que maximizan el rendimiento y la densidad energética.

Gabinete cerrado HPE Cray EX. Su diseño sellado y refrigeración líquida en circuito cerrado evita la expulsión de aire caliente, reduciendo el consumo energético. | Créditos: HPE

Cada gabinete EX4000 puede alojar hasta 64 blades de cómputo, organizados internamente en 8 chasis. Su arquitectura modular permite escalar el sistema de forma flexible.

El gabinete EX4000 contiene hasta 64 nodos de procesamiento, sin ventiladores: todo se enfría mediante refrigeración líquida. | Créditos: HPE

La integración entre CPU, GPU, memoria RAM y red de alta velocidad (HPE Slingshot) es clave para el rendimiento de Aurora como sistema unificado.

Sistema de racks de Aurora | Créditos: Argonee & HPE

Varios blades se organizan dentro de cada gabinete junto a unidades de refrigeración, distribución eléctrica y conectividad de red.

Componentes de un gabinete de cómputo Aurora: Cada gabinete contiene múltiples blades o nodos de procesamiento, distribuidos junto a módulos de enfriamiento por líquido (cooling manifolds) y unidades de distribución eléctrica (Power Distribution Units), optimizados para operaciones a gran escala. | Créditos: HPE

Los chasis son unidades mecánicas que organizan y distribuyen la energía, refrigeración y conectividad para los blades.

Vista interior de un chasis con blades conectados y mangueras de refrigeración líquida. | Créditos: HPE

Cada blade funciona como una mini computadora de alto rendimiento, integrando CPU, GPU, memoria RAM y placas aceleradoras en un solo módulo.

El SuperPC Aurora cuenta con 10.624 nodos de cómputo, conocidos como nodos tipo blade | Créditos: HPE

Es importante destacar que la plataforma de HPE Cray forma parte de 7 SuperPCs del top10 del ranking TOP500: El Capitán, Frontier, Aurora, HPC6, Alps, LUMI y Tuolumne.

El cerebro es el Intel Xeon Max Series y el músculo la GPU Intel Data Center GPU Max

Cada nodo integra dos CPUs Intel Xeon Max 9470, sumando 21.248 procesadores en total. Las unidades de 52 núcleos destacan por incluir 64 GB de memoria HBM2e integrada en el encapsulado, lo que permite reducir cuellos de botella y actuar como una caché de alta velocidad junto a los 512 GB de DDR5 convencionales.

Detalle de un módulo de cómputo de Aurora. Cada unidad contiene componentes Intel de alto rendimiento, conectados a un sistema de enfriamiento líquido de circuito cerrado. Los tubos azules y rojos gestionan el flujo térmico, mientras que las manijas permiten el acceso físico para mantenimiento o reemplazo. | Créditos: Localish / Intel

El motor principal de cálculo son las 63.744 GPUs Intel Data Center GPU Max 1550, que emplean un diseño modular basado en chiplets activos fabricados en distintos nodos de proceso e integrados con la tecnología de empaquetado 3D Foveros.

Cada GPU alberga 128 núcleos Xe y 1.024 motores XMX, hardware especializado que acelera multiplicaciones de matrices, la base de los algoritmos de inteligencia artificial.

Red de interconexión HPE Slingshot 11

Aurora coordina millones de núcleos en paralelo mediante la red HPE Slingshot 11, que emplea una topología Dragonfly de bajo diámetro y soporta tráfico HPC e IP sin pasarelas adicionales.

  • Topología Dragonfly: limita la distancia entre nodos a tres saltos de switch
  • Baja latencia: mejora la eficiencia en las comunicaciones internas del sistema
  • Enrutamiento adaptativo: redirige paquetes según la congestión en tiempo real
  • Compatibilidad con Ethernet estándar: transporta simultáneamente tráfico HPC e IA
  • Sin pasarelas adicionales: reduce la complejidad y evita latencia extra

Dicho de otro modo, la red Slingshot 11 puede compararse con una autopista de alto tráfico, diseñada para mover distintos tipos de vehículos sin atascos ni desvíos innecesarios.

  • Desvíos inteligentes: redirige los datos por rutas menos congestionadas
  • Multicarril: permite el paso simultáneo de distintos tipos de tráfico (HPC e IA)
  • Sin peajes: no requiere pasarelas que ralenticen la comunicación
  • Ruta directa: los datos entre nodos viajan con pocos saltos y menor latencia
  • Diseño eficiente: todo está optimizado para velocidad y fluidez en tiempo real
Vista frontal y posterior del switch HPE Slingshot 200G, componente de la red de interconexión de Aurora (lo más probable). Este modelo cuenta con 64 puertos QSFP-DD de 200 Gbps y forma parte de la topología Dragonfly, diseñada para reducir la latencia y optimizar el tráfico entre nodos. | Créditos: HPE

¿Qué es DAOS en Aurora y por qué es importante?

Uno de los mayores cuellos de botella en sistemas de computación exaescala está en el acceso a los datos. Para resolverlo, Aurora utiliza DAOS (Distributed Asynchronous Object Storage), un sistema de almacenamiento distribuido y asincrónico diseñado específicamente para cargas de alto rendimiento.

Supongamos que DAOS funciona como un tren de carga ultrarrápido con acceso directo a cada vagón, sin estaciones intermedias que frenen su recorrido. Visto desde Aurora, permite mover datos con máxima velocidad y eficiencia, incluso bajo grandes volúmenes:

  • Accede directamente a la memoria sin pasar por el sistema operativo.
  • Reduce la latencia y mejora la velocidad de lectura y escritura.
  • Está optimizado para cargas paralelas y datos no estructurados.
Comparación entre almacenamiento tradicional y DAOS, que accede directo a memoria persistente desde el espacio de usuario, reduciendo la latencia. | Créditos: Medium
Arquitectura de red Dragonfly en Aurora: nodos de cómputo, almacenamiento y servicio conectados por Slingshot de baja latencia y alto ancho de banda. | Créditos: HPE

Aurora separa el cómputo del almacenamiento. Cada tipo de nodo está diseñado para su función y conectado por una red ultrarrápida.

Comparación entre un nodo de cómputo y uno de almacenamiento en Aurora. | Créditos: HPE

Este esquema opera sobre memorias no volátiles y accede directamente desde el espacio de usuario, evitando pasar por el kernel del sistema operativo. El resultado: latencias extremadamente bajas en lectura y escritura de datos, incluso bajo cargas masivas.

¿Por qué importa DAOS?

Gracias a DAOS, Aurora no solo calcula rápido, sino que también alimenta y recoge datos con la misma eficiencia. Esta capacidad ha sido clave para que lidere el ranking IO500, que mide el rendimiento de almacenamiento en sistemas HPC.

Características principales en Aurora:

  • 1.024 nodos dedicados exclusivamente al almacenamiento
  • 230 PB de capacidad total
  • 31 TB/s de ancho de banda agregado
  • Acceso directo en espacio de usuario (sin pasar por el kernel)
  • Sistema optimizado para datos no estructurados y cargas paralelas

Sistema de refrigeración

Aurora emplea un sistema de refrigeración líquida a gran escala que permite disipar el calor generado por más de 10.000 nodos distribuidos en 166 gabinetes. El diseño considera canales de enfriamiento en cada blade de cómputo, de manera que el calor se extrae directamente de CPUs, GPUs y memorias de alto ancho de banda.

Sistema de refrigeración de Aurora | Créditos: Arognne

En total, se hacen circular 44.000 galones de agua a través de un circuito cerrado. Este esquema resulta indispensable para mantener bajo control la temperatura de una máquina que alcanza consumos de hasta 38,7 megavatios durante la ejecución de cargas intensivas.

El diseño modular de los blade de cómputo aporta ventajas de operación ya que cada gabinete integra su propio circuito de enfriamiento, lo que reduce el riesgo de puntos calientes y permite realizar tareas de mantenimiento sin detener el sistema completo.

Principales usos de Aurora

Aurora no fue pensado solo para romper récords de cómputo, sino para habilitar proyectos científicos en áreas diversas, que van desde biología molecular hasta cosmología, el supercomputador se utiliza como plataforma dual de simulación e inteligencia artificial.

El SuperPC de Argonne permite acelerar el diseño de nuevos fármacos, modelar reactores nucleares, estudiar la turbulencia en fluidos, analizar datos astronómicos a gran escala y explorar la energía de fusión, entre otros desafíos.

La siguiente tabla resume los principales dominios de investigación en los que Aurora está teniendo impacto.

Fuente: HPE 1 2 | Intel 1 2 | Argonee (ALCF) | University of Chicago | Innovation News Network | AuroraGPT

Ivan

Editor especializado en ciencia y tecnología, con foco en innovación, inteligencia artificial, telecomunicaciones y centros de datos. Trabajo con un enfoque riguroso y técnico, desarrollando contenidos sobre semiconductores, energía, ciberseguridad e infraestructura tecnológica.

Los comentarios de Disqus están cargando....
Publicado por
Ivan