TPU Ironwood Google

Ironwood, la apuesta de Google por un TPU eficiente para tareas de inferencia

Los anuncios durante el Google Cloud Next 25, fueron muchos, pero en materia de hardware fueron pocos; sin embargo, no por eso, significa que no sea importante. La gran G presentó una nueva generación de su familia de Tensor Processing Units (TPU), diseñada exclusivamente para tareas de inferencia, llamada Ironwood.

Recordemos que las TPU son chips desarrollados por Google que ejecutan modelos de aprendizaje automático de manera muy eficiente, especialmente aquellos modelos con redes neuronales profundas.

Las TPU están pensadas para optimizar procesos de álgebra matricial, que son fundamentales en las tareas para el procesamiento de lenguaje natural y predicciones generativas.c

Mejora en el rendimiento total máximo en FP8 en comparación con la TPU v2, la primera TPU de Google disponible externamente en la nube.
Mejora en el rendimiento total máximo en FP8 en comparación con la TPU v2, la primera TPU de Google disponible externamente en la nube. | Imagen créditos: Google Cloud

En cuanto al rendimiento, la nueva TPU de Google, Ironwood, marca una diferencia notable. Este nuevo chip no requiere un sistema de refrigeración líquida como sus antecesores, ni infraestructura de data center especializada. Esto permite una implementación sea más fácil y más eficiente desde el punto de vista de consumo de energía.

Su arquitectura se adapta a infraestructuras estándar, orientada a entornos donde se ejecutan modelos ya entrenados.

Comparación lado a lado de las especificaciones técnicas de los productos Cloud TPU con topología de toro 3D, incluyendo la generación más reciente, Ironwood de Google
Comparación lado a lado de las especificaciones técnicas de los productos Cloud TPU con topología de toro 3D, incluyendo la generación más reciente, Ironwood. El rendimiento máximo en FP8 para v4 y v5p está emulado, mientras que en Ironwood es compatible de forma nativa. | Imagen créditos: Google Cloud

Al ver la tabla anterior, se observa que la configuración de pods en Ironwood alcanza hasta 9.216 chips, superando loa 8960 de la TPU v5p. En cuanto a la memoria, el crecimiento es exponencial con 192 GB de memoria tipo HBM, que tiene un ancho de banda de 7.4 TB/s.

Esta configuración del Inronwood, permite la ejecución de modelos de lenguajes más complejos, y permitir trabajos en paralelo y dar respuesta a múltiples clientes en simultáneo.

Uno de los datos más destacables es su rendimiento máximo por chip: 4.614 TFLOPS, una cifra muy superior a los 459 TFLOPS de v5p. Este aumento refleja la apuesta de Google por una aceleración profunda en tareas de inferencia, enfocándose en reducir la latencia y optimizar el uso energético.

Mejora en la eficiencia energética de las TPU de Google en comparación con la primera generación Cloud TPU v2. Medida en FLOPS máximos en FP8 entregados por vatio de potencia térmica de diseño por encapsulado de chip.
Mejora en la eficiencia energética de las TPU de Google en comparación con la primera generación Cloud TPU v2. Medida en FLOPS máximos en FP8 entregados por vatio de potencia térmica de diseño por encapsulado de chip. | Imagen créditos: Google Cloud

IIronwood no es la primera TPU de Google, pero sí representa la primera en enfocarse exclusivamente en la inferencia, ¿El camino escogido por Google será el correcto para el futuro del hardware de las IA?

Fuente: Google
Síguenos en Google News