Durante Computex 2026, NVIDIA presentó Alpamayo 2 Super, un modelo abierto de visión, lenguaje y acción orientado al desarrollo de robotaxis de nivel 4. El foco técnico está en combinar percepción del entorno, razonamiento sobre la escena y salidas de decisión que puedan integrarse en una pila de conducción autónoma.
¿Qué cambia en el modelo VLA?
Alpamayo 2 Super usa una arquitectura VLA, sigla que agrupa visión, lenguaje y acción, con el objetivo de combinar percepción del entorno, interpretación contextual y capacidad de respuesta dentro de un mismo modelo. En conducción autónoma, este enfoque busca que el sistema no solo identifique objetos presentes en la vía, sino que también relacione esa información con posibles maniobras y con las condiciones de tránsito que rodean cada situación.
Los modelos VLA combinan información visual del entorno con capacidades de interpretación y generación de instrucciones. En lugar de limitarse a reconocer elementos de una escena, pueden asociar lo que observan con acciones concretas, una característica que ha ganado relevancia en áreas como la robótica y los sistemas autónomos.

Percepción completa del entorno
El modelo trabaja con una cobertura de 360 grados que incorpora vistas frontal, lateral y trasera, lo que le permite analizar situaciones donde el vehículo debe interpretar más que la escena inmediata del frente, incluyendo cambios de carril, incorporaciones y cruces en intersecciones.
NVIDIA indica que Alpamayo 2 Super alcanza los 32.000 millones de parámetros frente a generaciones previas de 10.000 millones, con el objetivo de mejorar el razonamiento, la comprensión espacial 3D y la predicción de trayectorias en escenarios complejos.
Decisiones de alto nivel
El sistema incorpora Meta-Actions, una salida que resume decisiones como ceder el paso, cambiar de carril o detenerse. No se trata de una maniobra final por sí sola, sino de una capa intermedia que puede orientar la planificación posterior dentro del sistema autónomo.
También utiliza trazas Chain-of-Causation, o CoC, para vincular decisiones con causas observadas en la escena. Esto permite revisar por qué el modelo propone una trayectoria o una acción determinada, un punto relevante para analizar errores y validar comportamientos.
Herramientas asociadas para entrenamiento y simulación
Alpamayo 2 Super opera junto a varias herramientas de NVIDIA orientadas a entrenamiento, simulación y uso de datos reales. La más relevante es AlpaGym, un marco de aprendizaje por refuerzo en ciclo cerrado que prueba decisiones dentro de un entorno simulado.
Ciclo cerrado y escenarios poco frecuentes
En un entrenamiento de ciclo cerrado, cada decisión modifica la escena siguiente y altera las condiciones bajo las que se evaluarán las acciones posteriores. Esto permite observar errores acumulados, ya que un frenado, un giro o una elección de ruta pueden influir directamente en el desarrollo posterior de la situación simulada.

AlpaSim funciona como entorno para esos ciclos de acción y observación, permitiendo evaluar cómo las decisiones del modelo modifican el desarrollo de una escena simulada. OmniDreams, por su parte, genera escenarios sintéticos de conducción que incluyen casos poco frecuentes y situaciones difíciles de obtener únicamente mediante datos capturados en la vía pública.
NVIDIA también incorpora Omniverse NuRec y Neural Reconstruction para transformar datos reales de flotas en escenas 3D. Ese material puede usarse en simulación y entrenamiento, mientras que el CoC Auto-Labeling Pipeline genera etiquetas causales desde clips de conducción sin depender directamente de anotación manual.

