Categorías: Noticias

Xiaomi MiMo-V2.5-Pro: el modelo abierto de IA que Xiaomi orienta a tareas largas

Xiaomi MiMo-V2.5-Pro combina contexto largo, código abierto y pruebas con agentes para tareas complejas de programación y razonamiento.

Xiaomi presentó MiMo-V2.5-Pro como la versión más capaz de su familia de modelos MiMo, con una ventana de contexto de un millón de tokens y disponibilidad pública para desarrolladores. El anuncio apunta a usos donde la IA debe sostener procesos extensos, revisar código, usar herramientas y mantener coherencia durante varias horas.

¿Qué es Xiaomi MiMo-V2.5-Pro y por qué el contexto largo es relevante?

El modelo combina una arquitectura de mezcla de expertos con 1,02 billones de parámetros totales y 42.000 millones activos por inferencia, una forma de seleccionar solo una parte del sistema para responder cada solicitud. En la práctica, Xiaomi lo presenta como una opción para tareas extensas sin activar todo el modelo en cada paso.

El contexto de un millón de tokens permite trabajar con volúmenes grandes de información dentro de una misma sesión, como repositorios de código, documentación o instrucciones acumuladas. Esa capacidad no garantiza por sí sola mejores respuestas, pero reduce la necesidad de fragmentar tareas complejas en muchas consultas aisladas.

Para manejar ese contexto, el gigante chino describe una atención híbrida que alterna atención local y global en una relación 6:1. La atención local revisa partes cercanas del texto, mientras la global conserva puntos más amplios de referencia durante el proceso.

Según la compañía, esa arquitectura disminuye casi siete veces el almacenamiento de KV-cache, que es la memoria temporal usada para reutilizar información ya procesada. La mejora importa en contextos largos, porque el costo de mantener antecedentes crece con la cantidad de texto.

Resultados presentados: agentes de código, tareas generales y razonamiento

Xiaomi organiza las comparaciones en tres áreas:

Agentes de programación
Agentes generales
Razonamiento.

A tener en consideración que la lectura de los gráficos procede de la propia compañía, por lo que funciona como punto de partida y no como evaluación independiente.

Comparación gráfica de Xiaomi sobre el desempeño de MiMo-V2.5-Pro frente a otros modelos en tareas de código, agentes generales y razonamiento. | Créditos: Xiaomi

En programación, se incluyen métricas de benchmark como: SWE-Bench Pro, MiMo Coding Bench, Terminal-Bench 2.0 y FrontierSWE. En tareas generales y razonamiento, incorpora GDPVal-AA, t³-bench, Claw-Eval y Humanity’s Last Exam. MiMo-V2.5-Pro aparece por sobre MiMo-V2.5 en la mayoría de las comparaciones mostradas y se ubica cerca de modelos comerciales citados en el gráfico.

Una prueba práctica para Xiaomi MiMo-V2.5-Pro: construir un compilador SysY en Rust

Xiaomi detalla una prueba en la que el modelo construyó un compilador SysY en Rust desde cero. Un compilador traduce código fuente a una representación que puede ejecutarse o transformarse, por lo que exige mantener muchas decisiones técnicas conectadas entre sí.

Evolución de la tasa de aprobación durante la construcción autónoma del compilador SysY, con fases de scaffolding, Koopa IR, backend RISC-V y optimización de rendimiento. | Créditos: Xiaomi

El ejercicio fue descrito en cuatro fases principales, lo que permite seguir mejor el avance técnico del compilador:

Scaffolding y AST: creación de la base del proyecto, el analizador léxico, el parser y la representación interna del programa.
Generación Koopa IR: transformación del código en una representación intermedia usada por el compilador.
Backend RISC-V: producción de una salida compatible con la arquitectura RISC-V.
Optimización de rendimiento: ajustes finales para mejorar la ejecución y completar la suite de pruebas.

Dicho de forma simple, el modelo debió leer el lenguaje, ordenar su estructura, convertirla en una representación intermedia y generar una salida técnica verificable.

Según Xiaomi, MiMo-V2.5-Pro completó la tarea en 4,3 horas, con 672 llamadas a herramientas y 233 pruebas aprobadas de 233. La primera compilación ya había superado 137 pruebas, equivalentes al 59 % de la suite.

La tabla Benchmark y los resultados completos

La siguiente tabla reúne las mediciones principales del modelo y las ordena en dos grupos: tareas generales con agentes y tareas de programación. Xiaomi aclara que los puntajes más altos indican mejor desempeño, salvo en las métricas marcadas como ranking.

Tabla comparativa de Xiaomi con métricas de agente general y agente de código; el símbolo “-” corresponde a modelos no evaluados. | Créditos: Xiaomi

En esa tabla, Xiaomi MiMo-V2.5-Pro figura con 1581 en GDPVal-AA, 72,9 en t³-bench y 63,8 en Claw-Eval. Para programación, aparece con 57,2 en SWE-Bench Pro, 78,9 en SWE-bench Verified y 68,4 en Terminal-Bench 2.0.

La lectura principal es que Xiaomi presenta a MiMo-V2.5-Pro como un modelo competitivo en tareas de agente, especialmente en programación y uso de herramientas. Sin embargo, la tabla no permite una comparación absoluta entre todos los sistemas, porque algunos modelos no fueron evaluados en todas las métricas.

El resultado más relevante no es un liderazgo general, sino la consistencia del modelo en varias pruebas distintas. La confirmación de ese rendimiento dependerá de evaluaciones externas que reproduzcan las mismas condiciones y comparen todos los modelos con criterios homogéneos.

Apertura del modelo y opciones de despliegue y aporte a equipos técnicos

La firma indica que los pesos, el tokenizer y la ficha técnica están disponibles en Hugging Face bajo una licencia permisiva. También remite a guías de despliegue para SGLang y vLLM, dos entornos utilizados para servir modelos de lenguaje.

El anuncio distingue MiMo-V2.5-Pro-Base, con contexto de 256K tokens, y MiMo-V2.5-Pro, con contexto de 1M tokens. Ambas versiones figuran con precisión mixta FP8, un formato numérico usado para reducir el consumo de memoria durante entrenamiento o inferencia.

Para equipos científicos y de ingeniería, el punto de interés está en la combinación de contexto largo, uso de herramientas y apertura del modelo. Esos tres elementos permiten probar flujos de trabajo más completos que una consulta aislada o una tarea breve.

El alcance real dependerá de evaluaciones externas, reproducibles y comparables, especialmente en programación, razonamiento y automatización con herramientas. La publicación de Xiaomi entrega una base técnica relevante, pero no reemplaza la verificación independiente en entornos de uso real.

Ivan

Editor especializado en ciencia y tecnología, con foco en innovación, inteligencia artificial, telecomunicaciones y centros de datos. Trabajo con un enfoque riguroso y técnico, desarrollando contenidos sobre semiconductores, energía, ciberseguridad e infraestructura tecnológica.

Los comentarios de Disqus están cargando....

Publicado por