Síguenos en Google News

¿Qué significa TOPS y cómo influye en el rendimiento de la inteligencia artificial?

En el ámbito del hardware para IA, el término TOPS se ha convertido en una métrica clave para describir la potencia de cálculo. Su uso es frecuente en especificaciones técnicas, fichas de producto y comparativas entre dispositivos.

Permite evaluar la capacidad de procesamiento en tareas como inferencia de modelos de lenguaje, visión artificial o reconocimiento de voz.

¿Qué son los TOPS?

TOPS significa Trillions of Operations Per Second (trillones de operaciones por segundo). Es decir, cuantifica la capacidad de procesamiento de una NPU al medir el número de operaciones (sumas, multiplicaciones, etc.) ejecutadas en billones por segundos.

Esta métrica cuantifica el rendimiento máximo teórico de un procesador de IA, específicamente en la ejecución de operaciones matemáticas basadas en números enteros (integer). Estas operaciones, como las sumas y multiplicaciones, son los cálculos fundamentales que constituyen el núcleo de las redes neuronales.

¿Cómo se calculan los TOPS?

La industria de los semiconductores ha estandarizado una fórmula para calcular el rendimiento teórico máximo de un procesador en TOPS, que es la siguiente:

Fórmula de cálculo de TOPS | Vía Qualcomm

Desglosemos los términos más importantes:

Las unidades MAC (Multiplicación-Acumulación) corresponden a los motores de hardware especializados en el corazón de las cargas de trabajo de IA.

  • Operación MAC: Cada unidad ejecuta dos pasos por ciclo de reloj: una multiplicación seguida de una suma (acumulación).
  • Factor «2» en la fórmula de TOPS: Representa estas dos operaciones fundamentales que realiza una unidad MAC en cada ciclo (la operación MAC).
  • Uso en IA: Son esenciales para ejecutar multiplicaciones de matrices, una operación central en los modelos de redes neuronales.
  • Importancia: Estas unidades son el núcleo computacional que impulsa el rendimiento en tareas de inferencia y entrenamiento en IA.

Por su parte, la frecuencia es la medida de la velocidad del reloj a la que operan las MAC medidas en Hz,

  • Impacto en el rendimiento: Una frecuencia más alta permite ejecutar más operaciones por segundo, aumentando la velocidad de procesamiento.
  • Consecuencias térmicas y energéticas: Elevar la frecuencia también incrementa el consumo de energía y la generación de calor.
  • Repercusiones prácticas: Estos efectos pueden afectar la duración de la batería y la experiencia de usuario, especialmente en dispositivos móviles.

Ejemplo mental

Piensa en un trabajador de la construcción (MAC) se le han asignado hacer dos tareas a completar por cada turno (o ciclo): una suma y una multiplicación. Entonces:

  • Unidad MAC: Un trabajador de la construcción individual.
  • Operación MAC: Las dos tareas asignadas al trabajador para cada turno (una multiplicación y una suma).
  • Ciclo de Reloj: Un turno de trabajo completo.
  • Frecuencia (Hz): La cantidad de turnos de trabajo que ocurren cada segundo.
  • Rendimiento Total (TOPS): La cantidad total de tareas completadas, que depende del número total de trabajadores y de la rapidez con la que completan sus turnos.
Analogía de la operación MAC. Cada «trabajador» representa una unidad MAC individual. En un único «turno» (ciclo de reloj), completa sus dos tareas asignadas: una multiplicación y una suma. | Créditos: Pisapapeles
Analogía de la Frecuencia y el Rendimiento (TOPS). El reloj representa la frecuencia, o la cantidad de «turnos» que ocurren por segundo. El rendimiento total (TOPS) de la «fábrica» se determina por la cantidad de trabajadores (unidades MAC) y la velocidad a la que completan sus turnos. | Créditos: Pisapapeles

Desglosemos la idea mental:

  • Trabajador de la construcción = Unidad MAC: Perfectamente representado. Cada trabajador es una unidad de hardware individual capaz de realizar un trabajo específico.
  • Dos tareas (suma y multiplicación) = Operación MAC: Esto es el núcleo del concepto. Captas muy bien que una unidad MAC realiza precisamente esas dos operaciones fundamentales (Multiplicar y Acumular/Sumar) en un solo paso o ciclo.
  • Turno de trabajo = Ciclo de reloj: Una gran forma de explicarlo. Es el pulso que dicta cuándo se completa una unidad de trabajo.
  • Cantidad de turnos por segundo = Frecuencia (Hz): Esta es la conexión clave. Una mayor frecuencia significa que los «turnos» ocurren más rápido, lo que permite que cada trabajador complete su par de tareas más veces en el mismo período.
  • Más trabajadores y más turnos = Más TOPS: El resultado final. La cantidad total de «trabajo» (cálculos) es el producto de la cantidad de trabajadores (unidades MAC) y la velocidad a la que trabajan (frecuencia).

¿Por qué es relevante la precisión INT8 en la medición de TOPS?

Un aspecto clave en la medición de TOPS es que usualmente se basa en operaciones con precisión INT8, es decir, enteros de 8 bits: esta precisión reducida permite realizar más operaciones simultáneamente comparadas con formatos de punto flotante como FP32. Esto se logra sin comprometer significativamente la calidad de los resultados en tareas de inferencia gracias a la técnica llamada cuantización.

Precisión de datos en IA: Desde la simplicidad eficiente de INT8 hasta el detalle exacto de FP32, cada formato ofrece un compromiso entre recursos y fidelidad. | Créditos: Pisapapeles

La cuantización convierte modelos entrenados en alta precisión a formatos más ligeros como INT8, acelerando su ejecución sin perder exactitud. Esta estrategia es ideal para dispositivos con recursos limitados como smartphones o laptops, permitiendo alto rendimiento con bajo consumo energético.

Las NPUs, optimizadas para estos cálculos, aprovechan especialmente esta técnica al estar diseñadas para procesar miles de operaciones simultáneas: sacrifican versatilidad por una eficiencia sobresaliente.

El uso de los TOPS en la industria

Tal como se ha planteado, los TOPS son una métrica habitual en productos de consumo y soluciones de edge computing. De hecho, al punto de usar estas cifras como argumento comercial para clasificar diferentes generaciones de hardware.

Bajo esta misma mecánica, la industria estableció que un computador con capacidades de IA debía contar con al menos 40 TOPS para ejecutar modelos localmente sin depender de la nube, y hoy en día también se trata de acotar el consumo, de ahí la unidad heredada TOPS/W.

En muchos casos, solo una parte de los TOPS, declarados en las fichas técnicas, se traduce en operaciones útiles cuando se ejecutan modelos de IA.

Por otro lado, para una visión más precisa del rendimiento, es común complementar la cifra de TOPS con pruebas en modelos reales como BERT o ResNet. Estas pruebas muestran cuántas inferencias por segundo logra realmente el sistema, considerando todos los factores involucrados.

¿Qué te parecen estos temas? ¿En otros artículos trataremos qué es un teraflops y la diferencia con TOPS?

Fuentes: XDA / Qualcomm / CNET / Kinara / Candtsolution

Síguenos en Google News