NVIDIA presentó cómo su arquitectura Blackwell puede ser usada en AI Factories para inferencia extrema

El el contexto del evento AI Infra Summit 2025, la firma estadounidense presentó la aplicación de su arquitectura NVIDIA Blackwell enfocada en las AI factories para inferencia extrema.

El concepto de NVIDIA va más allá de lo clásico de la industria del silicio, es una plataforma que combina:

Superchips Grace Blackwell (GB200): combinan dos GPUs Blackwell con un CPU Grace mediante NVLink.
Sistemas NVL72 a escala de rack: 72 GPUs interconectadas que operan como una única GPU lógica.
Redes de alta velocidad: tecnologías como NVLink Switch spine, Quantum-X800 InfiniBand y Spectrum-X Ethernet para comunicación masiva entre racks.
Software de orquestación: NVIDIA Dynamo, encargado de distribuir cargas de trabajo y optimizar recursos.

NVIDIA impulsa la inteligencia artificial con el lanzamiento del superchip Blackwell GB200

¿Qué son la inferencia extrema y las AI Factories?

La inferencia extrema es la fase en que un modelo de inteligencia artificial ya entrenado se utiliza para generar resultados a gran escala, con enormes volúmenes de datos y necesidad de máxima eficiencia.

Requiere la mayor eficiencia energética posible para sostener cargas de este tamaño.
Ejecuta en tiempo real modelos con cientos de miles de millones hasta billones de parámetros.
Procesa de forma continua decenas de billones de tokens de entrada y salida por semana.
Exige latencia muy baja, con respuestas casi instantáneas.

Para entender la idea de inferencia extrema, propongo dos analogías, la de un call center y la de un aeropuerto internacional:

Imagina un call center mundial donde millones de personas llaman al mismo tiempo con distintas consultas:

Cada llamada debe ser atendida de inmediato, sin cortes, y usando la menor cantidad de recursos posibles.
Esa es la exigencia de la inferencia extrema al ejecutar modelos de IA masivos.

Por otra parte, imagina un aeropuerto internacional en hora punta, con miles de vuelos que deben despegar y aterrizar de manera coordinada.

Cualquier retraso o error afecta a todo el sistema, y además debe hacerse con el menor consumo de combustible posible.
Así funciona la inferencia extrema al procesar billones de tokens en tiempo real.

Las AI Factories son centros de datos diseñados específicamente para ejecutar modelos de inteligencia artificial a gran escala, integrando miles de GPUs que funcionan como un único sistema.

Están optimizadas para cargas masivas con alta eficiencia y escalabilidad.
Operan como fábricas digitales, donde cada GPU es parte de una misma línea de producción.
Integran miles de GPUs interconectadas como un único sistema lógico.
Ejecutan aplicaciones de IA generativa, sistemas de recomendación y simulaciones científicas.

Esquema de una AI Factory impulsada por NVIDIA, donde los modelos fundacionales, los datos de clientes y las herramientas de IA funcionan como insumos. El ciclo incluye etapas de inferencia, ajuste fino y prototipado, con almacenamiento y retroalimentación continua de nuevos datos, lo que permite aplicaciones de producción optimizadas y en mejora constante. | Créditos: NVIDIA

Arquitectura Grace Blackwell

El núcleo de toda la arquitectura es el superchip Grace Blackwell (GB200), que está formado por dos GPUs Blackwell y un CPU Grace, conectados mediante NVLink-C2C para operar con memoria compartida y coherente.

Wafer de silicio Blackwell mostrado por Jensen Huang durante la presentación. | Créditos: NVIDIA

La configuración de este diseño reduce la latencia y optimiza el paso de datos entre CPU y GPU, lo que es clave para cargas de inferencia extrema.

Diagrama del superchip Grace Blackwell (GB200), mostrando CPU Grace y dos GPUs Blackwell interconectadas por NVLink C2C. | Créditos: NVIDIA

El objetivo de esta arquitectura es ofrecer un sistema balanceado:

La CPU Grace maneja grandes volúmenes de datos y la lógica de control,
Las GPUs Blackwell ejecutan el procesamiento paralelo intensivo.

El Superchip NVIDIA GB200 Grace Blackwell

El superchip NVIDIA Grace Blackwell GB200 integra 1 CPU y 2 GPU en un único paquete para cargas de IA generativa y cómputo de alto rendimiento.

Composición: 2 GPUs Blackwell B200 + 1 CPU Grace.
Interconexión: NVLink-C2C con 900 GB/s de ancho de banda.
Proceso de fabricación: 4 nm en TSMC.
Escala de transistores: 208.000 millones por GPU.
Potencia de cálculo: hasta 20 petaFLOPS por GPU.
Eficiencia: 30 veces más potencia y eficiencia que H100.

Superchip NVIDIA GB200 Grace Blackwell | Créditos: NVIDIA

Este superchip es la base del sistema NVL72, orientado a la inferencia extrema.

Configuración NVL72: 36 CPUs Grace + 72 GPUs Blackwell.
Conectividad: NVLink de 5ª generación.
Refrigeración: líquida de alta densidad.
Redes de interconexión: Spectrum-X800 y Quantum-X800 InfiniBand hasta 800 Gb/s.
Aplicaciones: IA generativa con billones de parámetros en tiempo real.

Fabricado con el proceso de 4 nm de TSMC, cada GPU alcanza los 208.000 millones de transistores, ofreciendo hasta 20 petaFLOPS de rendimiento, lo que lo convierte en uno de los procesadores más potentes del mundo para IA generativa y cómputo de alto rendimiento.

Proceso de testeo de un wafer en fábrica, donde cada chip Blackwell es verificado eléctricamente antes del corte y empaquetado. | Créditos: NVIDIA

El recorrido de fabricación comienza en las fábricas de TSMC, donde se producen obleas con decenas de chips Blackwell. Tras su verificación, los chips funcionales pasan al corte, empaquetado y montaje en módulos listos para su integración.

Wafer de producción en las fábricas de TSMC con múltiples chips Blackwell, previo al proceso de corte y empaquetado. | Créditos: NVIDIA

Los chips ensamblados se integran en una placa portadora junto a memoria de alta velocidad y componentes de gestión de energía. El resultado es un superchip preparado para escalar cargas de trabajo de IA con billones de parámetros.

Ensamblaje de un superchip NVIDIA Blackwell sobre su placa portadora, donde se integran el procesador principal y módulos de memoria de alta velocidad. | Créditos: NVIDIA

¿Cómo transforma Blackwell la inferencia de IA?

La inferencia es la etapa más exigente del ciclo de vida de la IA:

Los modelos entrenados responden a consultas en tiempo real para millones de usuarios.
Blackwell busca optimizar este proceso combinando cómputo y comunicación de manera más eficiente.

Un gráfico publicado por NVIDIA muestra cómo la complejidad de los modelos ha crecido de manera exponencial en la última década, desde AlexNet en 2012 hasta GPT-4 y sistemas recientes que superan los billones de parámetros:

Gráfico con la evolución del número de parámetros en modelos de IA, desde AlexNet hasta sistemas actuales de escala trillón. | Créditos: NVIDIA

En este contexto surge el superchip Grace Blackwell (GB200), que une dos GPUs Blackwell con un CPU Grace. La interconexión NVLink permite que CPU y GPU trabajen como una unidad coherente, reduciendo la latencia y mejorando el rendimiento en cargas de inferencia.

NVL72: un rack que actúa como una sola GPU

El GB200 NVL72 es un sistema que integra 72 GPUs Blackwell en un solo rack. La interconexión mediante NVLink Switch spine entrega un ancho de banda interno de 130 TB/s, permitiendo que las GPUs operen como una sola unidad lógica.

Entre los componentes clave destacan los módulos de refrigeración, las interconexiones de cobre de alto rendimiento y los sistemas de alimentación.

Vista interna de un módulo 1U del sistema NVIDIA NVL72 con los bloques de refrigeración líquida montados sobre los superchips Grace Blackwell (GB200). | Créditos: NVIDIA

Cada módulo del rack tiene dos superchips GB200, es decir, 2 CPUs Grace + 4 GPUs Blackwell.

Vista interna del mismo módulo 1U del NVL72 con los superchips Grace Blackwell (GB200) expuestos. Cada módulo integra dos superchips, equivalentes a 2 CPUs Grace y 4 GPUs Blackwell. | Créditos: NVIDIA

En consecuencia, la configuración del Superchip, el módulo del rack y el rack completo queda así:

Grace Blackwell Superchip (GB200): Integra 1 CPU Grace + 2 GPUs Blackwell unidas con NVLink-C2C.
Módulo 1U (como los de las fotos): Contiene 2 Superchips GB200 (En total: 2 CPUs Grace + 4 GPUs Blackwell)
Rack completo NVL72: Tiene 36 Superchips GB200 (En total: 36 CPUs Grace + 72 GPUs Blackwell funcionando como un único sistema lógico.)

Al combinar todos los módulos, el rack NVL72 funciona como una sola GPU, donde:

Peso total: 1,5 toneladas.
Componentes: más de 600.000 piezas ensambladas.
Cableado interno: más de 3 kilómetros de interconexiones de alta velocidad.
Software: millones de líneas de código que permiten operar el sistema como una sola GPU virtual.
Escala global de fabricación: más de 1,2 millones de subcomponentes producidos en 150 instalaciones y ensamblados en colaboración con 200 socios tecnológicos.

Instalación de los módulos del rack NVL72 | Créditos: NVIDIA

Rack NLV72 de 18 unidaes de cómputo y 9 módulos para conectividad | Créditos: NVIDIA

La siguiente galería muestra cómo los partners de NVIDIA usan la modularidad que proporciona Blackwell para sus propios racks:

Oracle despliega GPUs NVIDIA Blackwell en OCI para impulsar modelos de IA con razonamiento

Redes para AI Factories

El diseño de Blackwell está orientado a escalar más allá de del propio rack. Con Quantum-X800 InfiniBand y Spectrum-X Ethernet, es posible conectar varios racks NVL72 en una infraestructura coordinada. Estas instalaciones conforman las AI Factories, centros de datos optimizados para cargas de inferencia masiva y entrenamiento de modelos generativos.

La siguiente imagen muestra cómo son los componentes internos de los módulos de conectividad:

De izquierda a derecha, NVIDIA Quantum-X800 InfiniBand Switch, NVIDIA NVLink Switch y NVIDIA Spectrum-X Ethernet Switch. Estos sistemas de red permiten que múltiples racks NVL72 funcionen como una única AI Factory, con interconexión de hasta 400 Gbps por GPU. | Créditos: NVIDIA

Quantum-X800 InfiniBand Switch: provee una red de interconexión con baja latencia y hasta 800 Gbps por puerto, diseñada para cargas HPC y entrenamiento/inferencia de IA a gran escala. Permite comunicación determinística y pérdida cero en clústeres de decenas de miles de nodos.

NVLink Switch: ofrece comunicación directa entre GPUs con coherencia de memoria, sin necesidad de pasar por la CPU. En el NVL72, conecta 36 GB200 Superchips (72 GPUs) en una topología de malla, actuando como la columna vertebral interna de las AI factories

Spectrum-X Ethernet Switch: solución Ethernet optimizada para IA generativa y cargas de inferencia masiva. Incorpora telemetría avanzada, aislamiento de tráfico y soporte para hasta 400 Gbps por conexión, integrándose con las NICs ConnectX-7 para escalar centros de datos sobre infraestructura Ethernet existente.

NVIDIA anuncia sus últimas novedades de HPC en #COMPUTEX2023

NVIDIA Dynamo: el sistema operativo de las AI Factories

La operación de una AI Factory no depende solo del hardware, requiere de software que todo, para esto, NVIDIA presentó Dynamo, que actuaría como el sistema operativo de las granjas de IA.

¿Qué puede hacer Dynamo?

Orquestación de inferencia: distribuye y coordina peticiones en grandes flotas de GPUs.
Optimización de costos: busca que la operación de la AI Factory se ejecute al menor costo posible.
Escalabilidad dinámica: agrega o retira GPUs de las cargas según la demanda en tiempo real.
Balanceo de carga: redirige consultas hacia los procesadores más adecuados para cada tarea.
Máxima utilización de recursos: evita que GPUs queden inactivas y asegura que todo el hardware trabaje al máximo rendimiento posible.

Colossus, el supercomputador de xAI desarrollado en 122 días. Integra más de 200.000 GPUs NVIDIA y representa un ejemplo real de arquitectura full-stack a escala masiva, operada como una AI Factory. | Créditos: NVIDIA

¿Qué te parecen las novedades de NVIDIA en materia de las AI Factories para inferencia extrema?

Fuente: NVIDIA

Motorola presenta el nuevo Moto G67 en Latinoamérica

Motorola presenta su nuevo Moto G17 en América Latina

Samsung confirma la fecha del Galaxy Unpacked: 25 de febrero llegará al serie Galaxy S26

Review Huawei MatePad 12 X (2025)

Review Huawei Watch Ultimate 2

Review HONOR Magic8 Lite

Apple estaría negociando con Intel para fabricar sus chips A21, A22 y M de gama baja

Los Galaxy Buds 4 ya tienen todas sus certificaciones por lo que su lanzamiento estaría cerca

Una Nintendo Switch 2 Lite podría lanzarse en febrero a USD $350, según ex empleados de Nintendo

Gamaliel Soriano de Riot Games: «Para nosotros la métrica perfecta es el tiempo que los jugadores deciden dedicarle a nuestros juegos»

Hiram Monroy de AMD: «La colaboración es el habilitador central de la IA»

Nicolás Cánovas de AMD: “La IA no es una carrera de 100 metros, es un Ironman y apenas estamos empezando”

¿Qué esperar de Samsung en #CES2026 y qué presentará para consumidores?

Qué es Q-Symphony y cómo puedes usarlo en tu televisor y barra de sonido Samsung

¿Cuándo me toca MagicOS 10 de HONOR? Estos son los dispositivos compatible

La PlayStation 5 alcanza 92 millones de unidades enviadas

Horizon Hunters Gathering es el nuevo juego cooperativo de Guerrilla Games

Analistas creen que la Nintendo Switch 2 podría subir de precio debido a la crisis de memorias

NVIDIA presentó cómo su arquitectura Blackwell puede ser usada en AI Factories para inferencia extrema

¿Qué son la inferencia extrema y las AI Factories?

Arquitectura Grace Blackwell

El Superchip NVIDIA GB200 Grace Blackwell

¿Cómo transforma Blackwell la inferencia de IA?

NVL72: un rack que actúa como una sola GPU

Redes para AI Factories

NVIDIA Dynamo: el sistema operativo de las AI Factories

Fuente: NVIDIA

Poco X8 Pro y X8 Pro Max: filtran capacidades de batería y carga rápida

Entel ajustará el uso de espectro 3G y destina banda 1900 MHz a la expansión de 4G

WOM presenta oferta vinculante de 1.000 millones de dólares para adquirir Telefónica Chile

Subtel ordena bloquear en Chile a Magis TV y todas sus versiones y derivados

Los Lagos, Ñuble y Biobío comienzan el año como las regiones con el Internet más rápido del país

NVIDIA presentó cómo su arquitectura Blackwell puede ser usada en AI Factories para inferencia extrema

¿Qué son la inferencia extrema y las AI Factories?

Arquitectura Grace Blackwell

El Superchip NVIDIA GB200 Grace Blackwell

¿Cómo transforma Blackwell la inferencia de IA?

NVL72: un rack que actúa como una sola GPU

Redes para AI Factories

NVIDIA Dynamo: el sistema operativo de las AI Factories

Fuente: NVIDIA

Suscríbete