Entrevistas

Marcelo Bertolami: «Aurora es el primer supercomputador exaescala que integra procesadores Xeon Max y GPUs Intel para la investigación y simulación científica más avanzada»

La supercomputadora Aurora es un sistema expansivo con 166 racks, 10.624 blades de cómputo, 21.248 procesadores y 63.744 unidades GPU

Compartir

La construcción de Aurora, el primer supercomputador exaescala entregado al Departamento de Energía de Estados Unidos, representó un avance decisivo en la historia del cómputo de alto rendimiento. Intel, en conjunto con el Laboratorio Nacional de Argonne y HPE, integró tecnologías de hardware y software para responder a necesidades científicas que requieren precisión y capacidad a gran escala.

Este desarrollo articula ingeniería de vanguardia con objetivos de aplicación práctica, desde simulaciones físicas de enorme complejidad hasta modelos de inteligencia artificial entrenados con volúmenes masivos de datos.

En el marco de la participación de Intel en el desarrollo de tecnologías de cómputo de alto rendimiento, conversamos con Marcelo Bertolami, Gerente General de Ventas de Tecnología para Intel LatAm.

La entrevista aborda los avances y desafíos que representa Aurora, la primera supercomputadora exaescala de Intel en conjunto con el Laboratorio Nacional de Argonne, y detalla los aspectos técnicos y arquitectónicos que consolidan este proyecto como referencia mundial.

Aurora es la supercomputadora exaescala desarrollada por Intel y HPE para el Laboratorio Nacional de Argonne en Estados Unidos | Créditos: Argonne

El supercomputador Aurora en contexto científico y tecnológico

Aurora, con un diseño que combina procesadores Intel Xeon Max y GPUs Intel Data Center, se configura como uno de los sistemas destinado a acelerar la investigación científica y tecnológica.

El sistema cuenta con más de 166 racks y decenas de miles de aceleradores, alcanzando un rendimiento sostenido superior a los dos exaflops en doble precisión.

Esta capacidad le permite abordar simulaciones y modelos que van desde el cambio climático hasta la química cuántica, abriendo horizontes de investigación que antes eran inaccesibles.

Además de su escala, Aurora se distingue por la integración de software abierto y frameworks optimizados como oneAPI, lo que garantiza la portabilidad del código y la colaboración con la comunidad científica. Su arquitectura refleja no solo un salto de rendimiento, sino también una apuesta estratégica por la convergencia entre HPC e inteligencia artificial.

1. Diseño de nodos y rendimiento sostenido del supercomputador Aurora

El diseño de Aurora refleja el equilibrio entre potencia de cálculo, escalabilidad y eficiencia en un sistema exaescala. Esta sección aborda cómo la arquitectura de nodos, la densidad de cómputo y el rendimiento sostenido permiten a la supercomputadora enfrentar desafíos científicos sin precedentes.

Capacidad exaescala y cargas científicas

La llegada de la exaescala redefine lo que es posible en simulación y análisis de datos. Aurora establece un estándar al demostrar que la doble precisión a gran escala es viable y productiva para la investigación.

«Cuando hablamos de capacidad exaescala en términos de rendimiento sostenido en FP64, nos referimos a que Aurora puede realizar un quintillón (10^18) de operaciones por segundo con precisión de doble punto flotante. Aurora ha superado los dos exaflops de rendimiento pico de cómputo de doble precisión».

Rendimiento pico y escala del sistema (exaflops, tamaño, memoria y red) | Créditos: Argonne

Este nivel de rendimiento abre la posibilidad de enfrentar desafíos científicos de gran escala. La exaescala no es solo un avance técnico, sino una herramienta que redefine lo que se puede simular y analizar en la investigación global.

«Este nivel de rendimiento es para simulaciones científicas. Cargas computacionales que aprovechan esta escala incluyen modelado climático y meteorológico, simulaciones de física de partículas, dinámica molecular, diseño de materiales, astrofísica y cálculos en química cuántica».

Integración de CPU Xeon Max y GPU Max Series

Aurora fue concebida con un diseño de nodo que combina capacidades de propósito general y aceleración masiva. Este equilibrio es fundamental para sostener un flujo continuo de tareas híbridas.

«En Aurora, cada nodo integra nuestros procesadores Intel Xeon Max y las Intel® Data Center GPUs. Cada uno cuenta con dos procesadores Intel Xeon Max y seis Intel® Data Center GPUs, lo que permite distribuir cargas de trabajo entre cómputo general y aceleración».

Diagrama de un nodo de cómputo de Aurora, mostrando la interconexión entre sus 2 CPUs Intel Xeon Max, 6 GPUs Intel Data Center Max y los distintos tipos de memoria. | Créditos: Argonne

La combinación de estas unidades asegura que la capacidad de cómputo sea versátil y escalable. Con ello se busca mantener un equilibrio entre tareas generales y procesos altamente paralelos, sin comprometer la eficiencia global.

«Los procesadores Intel Xeon Max incorporan memoria de alto ancho de banda (HBM) directamente en el paquete. Esta configuración contribuye a la comunicación interna entre CPU y GPU, con un flujo de datos entre ambos componentes».

Detalle de la arquitectura y características del procesador Intel Xeon Max Series con memoria HBM, destacando sus 52 núcleos, cachés y 64 GB de memoria HBM2e por socket | Créditos: Argonne.
Intel Xeon Max Series, el cerebro tras el Supercomputador Aurora | Créditos: Intel.

Escala física y densidad de cómputo

El tamaño de Aurora refleja la magnitud de su ambición: alcanzar un rendimiento sin precedentes en un espacio limitado, con una densidad optimizada para maximizar cada rack.

«La supercomputadora Aurora es un sistema expansivo con 166 racks, 10.624 blades de cómputo, 21.248 procesadores Intel® Xeon® CPU y 63.744 unidades Intel® Data Center GPU, lo que la convierte en uno de los clústeres de GPU más grandes del mundo».

Visión general de la jerarquía del sistema del Supercomputador Aurora, desde los 166 racks del sistema completo hasta la composición de una única «compute blade» | Créditos: Argonne

Estas cifras reflejan la escala física de la infraestructura, que no solo es extensa en número de componentes, sino también en la capacidad de aprovechar al máximo cada metro cuadrado del centro de datos.

«Esta infraestructura nos permite concentrar una capacidad de procesamiento sin precedentes en el espacio disponible, logrando una alta densidad de cómputo por metro cuadrado».

Este nivel de compactación ofrece ventajas claras frente a sistemas menos optimizados. Permite maximizar el rendimiento en cada rack, reduciendo los costos de espacio y reforzando la eficiencia operativa en el centro de datos.

«El sistema está diseñado para ofrecer más de dos exaflops de rendimiento pico en doble precisión (FP64), lo que nos posiciona en la frontera de la computación de alto rendimiento y nos permite abordar las simulaciones y análisis científicos más complejos».

Benchmarks y eficiencia energética

Los resultados obtenidos en pruebas de referencia confirman el papel de Aurora como una plataforma de vanguardia, capaz de equilibrar precisión y versatilidad

«Aurora ha superado los dos exaflops de rendimiento pico en cómputo de doble precisión (FP64), un hito que refleja su capacidad para abordar las cargas científicas más exigentes».

Este rendimiento no se limita a la precisión científica, sino que también se complementa con un papel destacado en inteligencia artificial. Así, la plataforma logra un balance que la hace competitiva en dos campos de alta demanda.

«Además, hemos alcanzado 10.6 exaflops en rendimiento para inteligencia artificial, lo que consolida a Aurora como un sistema de referencia en este campo. Esta combinación de potencia de cómputo y versatilidad nos permite ofrecer resultados de alto impacto tanto en simulaciones científicas como en aplicaciones avanzadas de IA».

Componentes del nodo de cómputo Blade del Supercomputador Aurora, destacando tecnologías clave como la memoria HBM, la interconexión Xe Link entre GPUs y la compatibilidad con CXL 1.1 | Créditos: Argonne

2. Interconexión, memoria y flujo de datos del supercomputador Aurora

La comunicación interna entre miles de nodos y el manejo eficiente de datos son pilares de la supercomputación exaescala. En Aurora, la elección de redes, memorias y tecnologías de interconexión avanzada responde a la necesidad de mantener un flujo continuo, estable y coherente en operaciones de gran magnitud.

Ilustración del flujo de datos dentro de un nodo de cómputo Blade del Supercomputador Aurora, detallando las distintas rutas de comunicación como PCIe Gen5, Xe Link y el tejido de red (Fabric) entre CPUs, GPUs y memoria. | Créditos: Argonne

Red de interconexión y topología

La eficiencia de un sistema exaescala depende en gran medida de su capacidad de comunicación interna. Aurora integra una red diseñada para minimizar la latencia y garantizar una conectividad estable entre miles de nodos.

«En Aurora utilizamos la red de interconexión HPE Slingshot, basada en una topología Dragonfly. Esta arquitectura de red está diseñada para ofrecer alta velocidad y baja latencia en sistemas de gran escala, permitiendo que todos los nodos se comuniquen de forma eficiente».

Este enfoque permite optimizar las comunicaciones entre miles de nodos, reduciendo distancias lógicas y asegurando que los datos fluyan con la menor interferencia posible en un entorno masivo.

«Su diseño minimiza la cantidad de saltos necesarios entre nodos, lo que reduce la latencia y maximiza el ancho de banda disponible. Gracias a esta infraestructura, podemos sostener cargas de trabajo a escala exaescala con un flujo de datos rápido, estable y predecible».

Memoria de alto ancho de banda en GPU

El uso de HBM2e en los aceleradores de Aurora permite mantener un ritmo de alimentación constante para los núcleos de cómputo, evitando limitaciones que comprometan la productividad.

«Nuestros aceleradores Intel Data Center GPU incorporan memoria de alto ancho de banda HBM2e. Este tipo de memoria proporciona una tasa de transferencia capaz de alimentar los núcleos de cómputo con los datos que necesitan sin cuellos de botella».

Arquitectura jerárquica de la GPU Intel Data Center Max Series, mostrando cómo sus componentes se construyen desde el Xe Core (la unidad de cómputo fundamental), pasando por el Xe Slice (un grupo de núcleos), hasta el Xe Stack (un conjunto de Slices con memoria y otros recursos). | Créditos: Argonne

La importancia de este ancho de banda radica en la posibilidad de sostener cargas simultáneas, en las que inteligencia artificial y simulaciones científicas demandan recursos en paralelo.

«Para cargas mixtas de IA y HPC, este ancho de banda es crítico, ya que ambas requieren mover grandes volúmenes de datos con baja latencia. En la práctica, esto significa que podemos ejecutar de manera simultánea y eficiente algoritmos de entrenamiento de modelos y simulaciones científicas complejas sin que una carga penalice el rendimiento de la otra».

Tecnologías de interconexión avanzada

Aurora no solo se centra en lo que implementa hoy, sino también en lo que habilita para el futuro. Su diseño contempla la adopción de estándares emergentes como CXL.

«En Intel impulsamos CXL como tecnología clave de interconexión avanzada para centros de datos y HPC, y forma parte de nuestra hoja de ruta para futuras arquitecturas».

Su implementación apunta a una memoria más flexible y compartida, lo que permitiría ampliar el alcance del sistema a nuevas formas de colaboración entre procesadores y aceleradores.

«CXL permitirá que diferentes tipos de dispositivos compartan y accedan a la memoria de manera coherente, ampliando la capacidad total disponible y reduciendo la sobrecarga de comunicación. Aunque Aurora no implementa CXL de forma nativa, hemos diseñado su arquitectura para que evolucione hacia este modelo, facilitando la integración futura en niveles estratégicos del stack de memoria y comunicación».

DAOS y almacenamiento exaescala

El almacenamiento masivo es un componente crítico en un sistema de estas dimensiones. Aurora lo resuelve con la integración de DAOS, diseñado para operar con grandes volúmenes de datos.

«La integración de DAOS (Distributed Asynchronous Object Storage) en Aurora fue un desafío de ingeniería que abordamos optimizando el sistema para la escala, la baja latencia y la alta concurrencia».

Tabla comparativa de los sistemas de almacenamiento de Aurora, especificando la capacidad de 230 PB y el rendimiento de 31 TB/s del sistema principal DAOS | Créditos: Argonne

La clave estuvo en adaptar el software de almacenamiento a los ritmos propios de un sistema exaescala, asegurando que la consistencia de los datos no se viera comprometida por la magnitud de los flujos.

«DAOS, desarrollado por Intel como una plataforma de almacenamiento de código abierto, está diseñado para manejar grandes volúmenes de datos de forma asincrónica, algo esencial en entornos HPC».

En Aurora este diseño se volvió clave para sostener operaciones a gran escala. El reto fue asegurar que la infraestructura permitiera mantener velocidad y consistencia en todo momento.

«En Aurora, adaptamos y ajustamos DAOS para que las aplicaciones científicas pudieran leer y escribir datos a la velocidad que demanda la exaescala, manteniendo la consistencia y evitando cuellos de botella. Esta integración fue fundamental para garantizar que el subsistema de almacenamiento pudiera sostener el ritmo de cómputo del sistema».

3. Refrigeración, estabilidad térmica y arquitectura física del supercomputador Aurora

La magnitud de Aurora exige un control térmico y una estabilidad operativa que van más allá de los enfoques tradicionales. La integración de refrigeración líquida, la gestión de problemas durante la puesta en marcha y los compromisos arquitectónicos marcan la solidez física del sistema en funcionamiento prolongado.

Racks del supercomputador exaescala Aurora en el Argonne National Laboratory, donde se observa el sistema de refrigeración líquida directa (tuberías azules y rojas) encargado de disipar el calor de miles de procesadores Intel Xeon Max y GPUs Ponte Vecchio | Créditos: Argonne

Refrigeración líquida directa

El control térmico es uno de los principales retos en sistemas de alta densidad. Aurora utiliza un mecanismo directo que maximiza la eficiencia en los puntos de mayor generación de calor.

«En Aurora, incorporamos un sistema de refrigeración líquida directa, o direct-to-chip. Este sistema permite que el líquido refrigerante se aplique directamente sobre los componentes que generan calor, como nuestros procesadores Intel Xeon CPU y las Intel® Data Center GPUs».

Diagrama de un rack o gabinete de Aurora, mostrando la ubicación de los Blade de cómputo refrigeradas por líquido y los colectores de suministro y retorno del refrigerante | Créditos: Argonne

Este mecanismo busca maximizar la transferencia térmica en los puntos críticos del hardware, evitando que la acumulación de calor limite el rendimiento sostenido del sistema.

«La gestión del calor en operación sostenida a escala exaescala se realiza a través de un circuito cerrado. Este circuito transporta la energía térmica fuera de los racks y la disipa mediante intercambiadores de calor. Este enfoque contribuye a mantener las temperaturas dentro de rangos operativos y a la estabilidad del sistema durante cargas prolongadas».

Blade de cómputos de Intel en Aurora con las tuberías de refrigeración líquida | Créditos: Argonne

Retos de puesta en marcha y depuración del supercomputador Aurora

La construcción de Aurora estuvo marcada por decisiones arquitectónicas complejas y, al mismo tiempo, por dificultades externas derivadas del contexto global.

«La construcción de un sistema de la magnitud de Aurora presenta desafíos. El desarrollo de una supercomputadora a exaescala requirió una arquitectura con núcleos de procesador, memoria de alto ancho de banda y aceleradores. Los debates arquitectónicos, las compensaciones en el diseño de nodos y los desafíos de integración fueron constantes».

La magnitud del proyecto, además, coincidió con un periodo de disrupciones en la cadena de suministro, lo que añadió obstáculos adicionales al despliegue del sistema.

«Los desafíos tecnológicos se agravaron en 2019 debido a interrupciones en la cadena de suministro relacionadas con la COVID-19».

Estas dificultades coincidieron con una etapa clave de integración, lo que exigió un esfuerzo adicional de coordinación. El impacto se reflejó tanto en los tiempos de entrega como en la estabilidad inicial del sistema, obligando a redoblar los procesos de control.

«La depuración del hardware en colaboración con el cliente, la gestión de la temperatura y la búsqueda de errores consumieron meses. Nuestros ingenieros, expertos en hardware, software y sistemas, trabajaron para lograr la aceptación de Aurora, demostrando compromiso a pesar de los contratiempos».

Compromisos arquitectónicos

La arquitectura de Aurora surge de un balance entre potencia, escalabilidad y eficiencia energética. Estas decisiones fueron clave para garantizar la viabilidad del sistema en operación sostenida.

«En el diseño de los nodos de Aurora, los debates arquitectónicos, las compensaciones en el diseño de nodos y los desafíos de integración fueron constantes».

La estrategia fue elegir componentes que ofrecieran equilibrio entre potencia y consumo energético, asegurando que el crecimiento del sistema no significara un aumento desproporcionado en su demanda de recursos.

«Esto incluyó la selección de nuestros procesadores Intel® Xeon® CPU con HBM para rendimiento por núcleo y eficiencia, y las Intel® Data Center GPUs para aceleración. Esto fue parte del proceso para desarrollar una arquitectura con núcleos de procesador, memoria de alto ancho de banda y aceleradores, al mismo tiempo que se gestionaba la energía y la refrigeración a una escala».

4. Frameworks, portabilidad y convergencia HPC–IA del supercomputador Aurora

El verdadero valor de un sistema exaescala no reside solo en su hardware, sino en el ecosistema de software que lo hace accesible. Aurora se apoya en frameworks abiertos, portabilidad de código y la convergencia con la inteligencia artificial para ofrecer un entorno que impulse tanto la investigación clásica como los nuevos modelos de IA científica.

Frameworks de desarrollo y portabilidad

Aurora no se limita al hardware: el software es un pilar central que permite que científicos y desarrolladores aprovechen la infraestructura sin depender de plataformas propietarias.

«En Aurora ofrecemos el framework de desarrollo oneAPI, complementado con librerías de inteligencia artificial y entornos basados en contenedores».

Descripción del ecosistema de software oneAPI como un modelo de programación unificado y basado en estándares para arquitecturas de CPU y aceleradores (GPU) | Créditos: Argonne

La colaboración con Argonne permitió que la adaptación del software respondiera a las características masivas de la arquitectura, evitando bloqueos y favoreciendo la migración de aplicaciones.

«Junto al Laboratorio Nacional de Argonne hemos optimizado todo el stack de software oneAPI para este sistema, garantizando que aproveche totalmente la arquitectura masiva de tipo XPU».

Esta optimización permitió que el sistema se alineara con las necesidades de la investigación científica. Al mismo tiempo, estableció un marco de colaboración en el que la apertura y la interoperabilidad se volvieron principios fundamentales para el desarrollo.

«Nuestro compromiso con un ecosistema de software abierto ha sido clave como la evolución de oneAPI y de nuestras librerías de IA, perfeccionadas en estrecha colaboración con Argonne, nos ha permitido lograr una alta portabilidad de código, facilitando que desarrolladores y científicos».

Ecosistema de Software: Pila unificada y basada en el estándar abierto oneAPI, con librerías (oneMKL, oneDNN) y lenguajes (DPC++) | Créditos: Intel. | Vía hotchips

Convergencia entre HPC e IA

Aurora representa un modelo de convergencia tecnológica donde simulaciones tradicionales e inteligencia artificial comparten un mismo entorno de cómputo.

«Aurora ejemplifica la convergencia entre HPC e IA al estar impulsada por los procesadores Intel® Xeon® CPU y las Intel® Data Center GPUs. Este diseño contribuye al descubrimiento científico y la innovación en una gama de aplicaciones, desde el modelado y la simulación tradicionales hasta la inteligencia artificial».

La experiencia acumulada en este sistema también ha dado lugar a iniciativas como AuroraGPT, que buscan integrar modelos fundacionales dentro de un contexto científico, con resultados que amplían las fronteras del conocimiento.

«El proyecto AuroraGPT, que forma parte del Consorcio de Trillones de Parámetros, tiene como objetivo entrenar un modelo de lenguaje grande (LLM) en Aurora para aplicaciones científicas. Aurora ha logrado 10.6 exaflops de rendimiento en IA».

Ivan

Editor especializado en ciencia y tecnología, con foco en innovación, inteligencia artificial, telecomunicaciones y centros de datos. Trabajo con un enfoque riguroso y técnico, desarrollando contenidos sobre semiconductores, energía, ciberseguridad e infraestructura tecnológica.

Los comentarios de Disqus están cargando....