Categorías: Noticias

Google Cloud presentó en Google Cloud Next ’26 sus TPU 8t y TPU 8i de octava generación

En Google Cloud Next ’26, Google presentó TPU 8t y 8i con arquitecturas separadas para entrenamiento e inferencia de IA agéntica.

En el marco de Google Cloud Next ’26, Google Cloud presentó su octava generación de Tensor Processing Units (TPU) con dos arquitecturas diferenciadas. TPU 8t fue diseñada para entrenamiento a gran escala, mientras TPU 8i apunta a inferencia de baja latencia, razonamiento y serving, en una separación de funciones que responde a las nuevas exigencias de la infraestructura para IA agéntica.

Infografía de las principales diferencias entre la nuevas TPU de Google presentadas en Next ’26. | Creado con NotebookLM

Google posiciona TPU 8t para entrenamiento de modelos a gran escala

Este procesador fue concebido para acelerar el preentrenamiento de modelos de frontera y reducir ciclos de desarrollo que antes podían tomar meses. Según Google, un superpod de TPU 8t puede escalar hasta 9.600 chips, integrar 2 petabytes de memoria compartida de alto ancho de banda y entregar 121 ExaFlops de cómputo, con una mejora cercana a 3 veces por pod frente a la generación previa.

Cuadro comparativo de rendimiento y tamaño de clúster correspondiente a TPU 8t vs Ironwood (2025). | Créditos: Google

Además del volumen bruto de cómputo, la gran G reforzó la alimentación de datos y la escalabilidad del sistema. TPU 8t incorpora acceso a almacenamiento hasta 10 veces más rápido mediante TPUDirect y puede apoyarse en Virgo Network para escalar con comportamiento casi lineal, incluso en configuraciones lógicas de gran tamaño.

TPU 8i para inferencia, muestreo y razonamiento

La TPU 8i está diseñada para post-training, serving y razonamiento concurrente, con foco en reducir tiempos de espera durante la ejecución. El gigante tecnológico señala que cada chip combina 288 GB de memoria HBM con 384 MB de SRAM en chip, mientras la configuración completa puede escalar hasta 1.152 chips por pod, con 331,8 TB de HBM total y 11,6 ExaFlops en precisión FP8.

Detalle de memoria y capacidad de cálculo en la versión TPU 8i vs Ironwood (2025) | Créditos: Google

¿Cómo Boardfly reorganiza la interconexión en TPU 8i?

En esta arquitectura, Google dejó de apoyarse en la topología 3D torus de TPU 8t y adoptó Boardfly, una red jerárquica pensada para cargas con comunicación intensiva. No se trata de una malla puramente óptica de extremo a extremo. El diseño parte desde bloques de cuatro chips, agrupa ocho boards y luego conecta 36 grupos mediante Optical Circuit Switches, con el objetivo de reducir saltos y latencia.

Topología jerárquica Boardfly de TPU 8i, construida a partir de un bloque base de cuatro chips totalmente interconectados, que luego escala a un grupo de ocho placas también totalmente conectadas, con 36 de esos grupos enlazados entre sí para conformar un pod TPU 8i completo. | Créditos Google.

El diagrama muestra que Boardfly ordena TPU 8i mediante una jerarquía de interconexión que escala desde bloques de cuatro chips hasta el pod completo. Esa arquitectura reduce la distancia de comunicación frente a la topología toroidal tradicional y favorece cargas como MoE y razonamiento, donde el intercambio de datos entre chips es decisivo para el rendimiento.

En palabras simples, Boardfly es como un edificio de oficinas de varios pisos, con ascensores directos y escaleras rápidas entre niveles clave, en vez de un laberinto interminable de pasillos, como ocurre en una red torus 3D. Así reduce los “saltos” entre chips de 16 a 7 y acelera el flujo de datos en tareas intensivas.

Interconexión, energía y enfriamiento líquido

La densidad de cómputo de ambas plataformas exige un soporte térmico más agresivo que el enfriamiento por aire convencional. La firma indica que TPU 8t y TPU 8i están refrigeradas por su tecnología de refrigeración líquida de cuarta generación, junto con gestión dinámica de energía, para sostener mayores densidades y mejorar la eficiencia del sistema completo.

Unidad de distribución de enfriamiento utilizada en la infraestructura de Google Cloud. | Créditos: Google

La imagen anterior corresponde a la unidad de distribución de enfriamiento. Este componente forma parte de una estrategia más amplia en la que el ecosistema, la red, el almacenamiento, los hosts Axion y el centro de datos fueron co-diseñados como una sola pila, en vez de tratarse como piezas aisladas.

En conjunto, la separación entre TPU 8t y TPU 8i responde a un cambio de fondo en la infraestructura de IA. Google plantea que entrenamiento, serving e inferencia agéntica ya no comparten los mismos cuellos de botella, por lo que requieren arquitecturas distintas para sostener rendimiento, eficiencia energética y escalabilidad en producción.

La corrección conceptual más importante es esta: 8t y 8i no son “módulos” de un mismo chip, sino dos plataformas diferentes, y en 8i la topología Boardfly no reemplaza todo por enlaces ópticos directos, sino por una jerarquía mixta de interconexiones internas, boards, grupos y conmutación óptica entre grupos.

Ivan

Editor especializado en ciencia y tecnología, con foco en innovación, inteligencia artificial, telecomunicaciones y centros de datos. Trabajo con un enfoque riguroso y técnico, desarrollando contenidos sobre semiconductores, energía, ciberseguridad e infraestructura tecnológica.

Los comentarios de Disqus están cargando....

Publicado por

Ivan

Tags: GoogleGoogle Next 26IATensor Processing UnitsTPUTPU 8iTPU 8t

2 minutos

Google Cloud presentó en Google Cloud Next ’26 sus TPU 8t y TPU 8i de octava generación

Google posiciona TPU 8t para entrenamiento de modelos a gran escala

TPU 8i para inferencia, muestreo y razonamiento

¿Cómo Boardfly reorganiza la interconexión en TPU 8i?

Interconexión, energía y enfriamiento líquido

Noticias relacionadas