Xiaomi MiMo-V2.5-Pro combina contexto largo, código abierto y pruebas con agentes para tareas complejas de programación y razonamiento.

Xiaomi presentó MiMo-V2.5-Pro como la versión más capaz de su familia de modelos MiMo, con una ventana de contexto de un millón de tokens y disponibilidad pública para desarrolladores. El anuncio apunta a usos donde la IA debe sostener procesos extensos, revisar código, usar herramientas y mantener coherencia durante varias horas.
El modelo combina una arquitectura de mezcla de expertos con 1,02 billones de parámetros totales y 42.000 millones activos por inferencia, una forma de seleccionar solo una parte del sistema para responder cada solicitud. En la práctica, Xiaomi lo presenta como una opción para tareas extensas sin activar todo el modelo en cada paso.
El contexto de un millón de tokens permite trabajar con volúmenes grandes de información dentro de una misma sesión, como repositorios de código, documentación o instrucciones acumuladas. Esa capacidad no garantiza por sí sola mejores respuestas, pero reduce la necesidad de fragmentar tareas complejas en muchas consultas aisladas.
Para manejar ese contexto, el gigante chino describe una atención híbrida que alterna atención local y global en una relación 6:1. La atención local revisa partes cercanas del texto, mientras la global conserva puntos más amplios de referencia durante el proceso.
Según la compañía, esa arquitectura disminuye casi siete veces el almacenamiento de KV-cache, que es la memoria temporal usada para reutilizar información ya procesada. La mejora importa en contextos largos, porque el costo de mantener antecedentes crece con la cantidad de texto.
Xiaomi organiza las comparaciones en tres áreas:
A tener en consideración que la lectura de los gráficos procede de la propia compañía, por lo que funciona como punto de partida y no como evaluación independiente.
En programación, se incluyen métricas de benchmark como: SWE-Bench Pro, MiMo Coding Bench, Terminal-Bench 2.0 y FrontierSWE. En tareas generales y razonamiento, incorpora GDPVal-AA, t³-bench, Claw-Eval y Humanity’s Last Exam. MiMo-V2.5-Pro aparece por sobre MiMo-V2.5 en la mayoría de las comparaciones mostradas y se ubica cerca de modelos comerciales citados en el gráfico.
Xiaomi detalla una prueba en la que el modelo construyó un compilador SysY en Rust desde cero. Un compilador traduce código fuente a una representación que puede ejecutarse o transformarse, por lo que exige mantener muchas decisiones técnicas conectadas entre sí.
El ejercicio fue descrito en cuatro fases principales, lo que permite seguir mejor el avance técnico del compilador:
Dicho de forma simple, el modelo debió leer el lenguaje, ordenar su estructura, convertirla en una representación intermedia y generar una salida técnica verificable.
Según Xiaomi, MiMo-V2.5-Pro completó la tarea en 4,3 horas, con 672 llamadas a herramientas y 233 pruebas aprobadas de 233. La primera compilación ya había superado 137 pruebas, equivalentes al 59 % de la suite.
La siguiente tabla reúne las mediciones principales del modelo y las ordena en dos grupos: tareas generales con agentes y tareas de programación. Xiaomi aclara que los puntajes más altos indican mejor desempeño, salvo en las métricas marcadas como ranking.
En esa tabla, Xiaomi MiMo-V2.5-Pro figura con 1581 en GDPVal-AA, 72,9 en t³-bench y 63,8 en Claw-Eval. Para programación, aparece con 57,2 en SWE-Bench Pro, 78,9 en SWE-bench Verified y 68,4 en Terminal-Bench 2.0.
La lectura principal es que Xiaomi presenta a MiMo-V2.5-Pro como un modelo competitivo en tareas de agente, especialmente en programación y uso de herramientas. Sin embargo, la tabla no permite una comparación absoluta entre todos los sistemas, porque algunos modelos no fueron evaluados en todas las métricas.
El resultado más relevante no es un liderazgo general, sino la consistencia del modelo en varias pruebas distintas. La confirmación de ese rendimiento dependerá de evaluaciones externas que reproduzcan las mismas condiciones y comparen todos los modelos con criterios homogéneos.
La firma indica que los pesos, el tokenizer y la ficha técnica están disponibles en Hugging Face bajo una licencia permisiva. También remite a guías de despliegue para SGLang y vLLM, dos entornos utilizados para servir modelos de lenguaje.
El anuncio distingue MiMo-V2.5-Pro-Base, con contexto de 256K tokens, y MiMo-V2.5-Pro, con contexto de 1M tokens. Ambas versiones figuran con precisión mixta FP8, un formato numérico usado para reducir el consumo de memoria durante entrenamiento o inferencia.
Para equipos científicos y de ingeniería, el punto de interés está en la combinación de contexto largo, uso de herramientas y apertura del modelo. Esos tres elementos permiten probar flujos de trabajo más completos que una consulta aislada o una tarea breve.
El alcance real dependerá de evaluaciones externas, reproducibles y comparables, especialmente en programación, razonamiento y automatización con herramientas. La publicación de Xiaomi entrega una base técnica relevante, pero no reemplaza la verificación independiente en entornos de uso real.