Vera Rubin incorpora Groq 3 LPX para reforzar la inferencia de baja latencia y articular GPU, CPU, red y almacenamiento en racks de IA a gran escala

Créditos: NVIDIA
NVIDIA presentó a Vera Rubin como una plataforma pensada para cubrir distintas etapas del trabajo con IA. El anuncio combina cómputo, red, almacenamiento y gestión energética en una arquitectura que apunta desde el pretraining hasta la inferencia agentic.
La base del anuncio no está en un solo chip, sino en un sistema completo de racks especializados. Esa lógica permite distribuir funciones dentro de la fábrica de IA y ajustar la infraestructura según el tipo de carga que se quiera ejecutar.
El núcleo de Vera Rubin parte con el rack NVL72, orientado a entrenamiento e inferencia a gran escala. A su lado aparece el Vera CPU Rack, que entrega capacidad adicional para validación, sincronización y ejecución de entornos basados en CPU.
En conjunto, ambos bloques forman la base computacional de la plataforma. NVIDIA los presenta como una combinación de GPU y CPU integrada a nivel de rack, con énfasis en densidad, eficiencia y coordinación entre componentes.
Dentro de la plataforma, NVIDIA incorpora el rack Groq 3 LPX como una pieza especializada en inferencia determinista y de baja latencia. Su función es responder a cargas que requieren contextos amplios y una ejecución más predecible en modelos de gran tamaño.
La compañía lo posiciona como un complemento del entorno Vera Rubin. La idea es que LPX y NVL72 trabajen de forma conjunta en tareas de inferencia donde importan tanto la velocidad como la eficiencia energética.
La NVIDIA Groq 3 LPX es un acelerador de inferencia de IA a escala de rack diseñado para la plataforma Vera Rubin, con 256 aceleradores LPU Groq 3 interconectados para workloads agénticos de baja latencia. Cada LPU ofrece 500 MB de SRAM, 150 TB/s de ancho de banda SRAM y 2.5 TB/s de ancho de banda scale-up, optimizado para generación de tokens junto a GPUs Rubin.