Las nuevas versiones de Gemma 4 QAT reducen memoria en BF16, Q4_0 y formatos móviles para facilitar ejecución local en equipos de consumo

Google liberó nuevas versiones de Gemma 4 optimizadas con Quantization-Aware Training, una técnica que integra la cuantización durante el entrenamiento del modelo. El objetivo es reducir el uso de memoria y facilitar la ejecución local en dispositivos edge, móviles, notebooks y GPU de consumo.
En ese contexto, la cuantización permite reducir el tamaño de un modelo y acelerar su ejecución en hardware de consumo. Sin embargo, cuando se aplica después del entrenamiento, puede degradar su rendimiento, por lo que técnicas como Quantization-Aware Training buscan minimizar ese impacto al incorporar esas restricciones durante el proceso de aprendizaje.
Con Quantization-Aware Training, Google no toma un modelo ya entrenado para reducirlo después, sino que incorpora esa condición durante el propio entrenamiento. El modelo aprende considerando desde antes que sus pesos y operaciones deberán funcionar en formatos más compactos, lo que ayuda a reducir la pérdida de calidad cuando se publica una versión cuantizada.
Google aplicó esta técnica al formato Q4_0 en los modelos Gemma 4. En los modelos edge E2B y E4B, además, diseñó un esquema especializado para uso móvil, con activaciones estáticas, cuantización por canal, cuantización dirigida de 2 bits y optimización de embeddings y KV cache.
Según los datos publicados por Google, Gemma 4 E2B pasa de requerir 11,4 GB de memoria en BF16 a 2,9 GB en Q4_0, 1,1 GB en la versión Mobile y 0,84 GB en Mobile Text-only.
Los pesos están disponibles en Hugging Face en formatos Q4_0 y mobile, además de formatos GGUF para llama.cpp y tensores comprimidos para vLLM. Google también menciona compatibilidad con Ollama, LM Studio, LiteRT-LM, Transformers.js, SGLang, MLX, Hugging Face Transformers y Unsloth.