Google presenta Gemma 4 QAT para reducir memoria en modelos ejecutados en equipos locales

Las nuevas versiones de Gemma 4 QAT reducen memoria en BF16, Q4_0 y formatos móviles para facilitar ejecución local en equipos de consumo

Google liberó nuevas versiones de Gemma 4 optimizadas con Quantization-Aware Training, una técnica que integra la cuantización durante el entrenamiento del modelo. El objetivo es reducir el uso de memoria y facilitar la ejecución local en dispositivos edge, móviles, notebooks y GPU de consumo.

En ese contexto, la cuantización permite reducir el tamaño de un modelo y acelerar su ejecución en hardware de consumo. Sin embargo, cuando se aplica después del entrenamiento, puede degradar su rendimiento, por lo que técnicas como Quantization-Aware Training buscan minimizar ese impacto al incorporar esas restricciones durante el proceso de aprendizaje.

Infografía de diferencia entre estrategias de cuantización: PTQ vs QAT (aplicada en Gemma 4). | Creado con NotebookLM

Gemma 4 QAT busca conservar calidad al comprimir el modelo

Con Quantization-Aware Training, Google no toma un modelo ya entrenado para reducirlo después, sino que incorpora esa condición durante el propio entrenamiento. El modelo aprende considerando desde antes que sus pesos y operaciones deberán funcionar en formatos más compactos, lo que ayuda a reducir la pérdida de calidad cuando se publica una versión cuantizada.

Google aplicó esta técnica al formato Q4_0 en los modelos Gemma 4. En los modelos edge E2B y E4B, además, diseñó un esquema especializado para uso móvil, con activaciones estáticas, cuantización por canal, cuantización dirigida de 2 bits y optimización de embeddings y KV cache.

Requisitos aproximados de memoria para ejecutar modelos Gemma 4 en BF16, Q4_0 y formatos móviles. | Créditos: Google.

Gemma 4 E2B baja a cerca de 1 GB en formato móvil

Según los datos publicados por Google, Gemma 4 E2B pasa de requerir 11,4 GB de memoria en BF16 a 2,9 GB en Q4_0, 1,1 GB en la versión Mobile y 0,84 GB en Mobile Text-only.

Gemma 4 E4B: de 17,9 GB en BF16 a 4,5 GB en Q4_0, 2,5 GB en Mobile y 2,2 GB en Mobile Text-only.
Gemma 4 12B: de 26,7 GB a 6,7 GB en Q4_0.
Gemma 4 26B A4B: de 57,7 GB a 14,4 GB en Q4_0.
Gemma 4 31B: de 69,9 GB a 17,5 GB en Q4_0.

Los pesos están disponibles en Hugging Face en formatos Q4_0 y mobile, además de formatos GGUF para llama.cpp y tensores comprimidos para vLLM. Google también menciona compatibilidad con Ollama, LM Studio, LiteRT-LM, Transformers.js, SGLang, MLX, Hugging Face Transformers y Unsloth.

Infografía de Gemma 4 QAT. | Creado con NotebookLM

Ivan

Editor especializado en ciencia y tecnología, con foco en innovación, inteligencia artificial, telecomunicaciones y centros de datos. Trabajo con un enfoque riguroso y técnico, desarrollando contenidos sobre semiconductores, energía, ciberseguridad e infraestructura tecnológica.

Los comentarios de Disqus están cargando....

Publicado por

Ivan

Tags: CuantizaciónGemma 4Gemma 4 QATGoogleigQuantization-Aware Training

2 meses

Google presenta Gemma 4 QAT para reducir memoria en modelos ejecutados en equipos locales

Gemma 4 QAT busca conservar calidad al comprimir el modelo

Gemma 4 E2B baja a cerca de 1 GB en formato móvil

Noticias relacionadas