NVIDIA apunta a agentes que pueden interpretar audio, video, imágenes, documentos y texto desde un mismo modelo abierto

NVIDIA presentó Nemotron 3 Nano Omni, un modelo abierto de razonamiento multimodal diseñado para agentes de IA que necesitan interpretar video, audio, imágenes, documentos, gráficos, interfaces y texto desde un mismo sistema. La compañía lo describe como un componente de percepción para flujos de IA agéntica, con entrada multimodal y salida en texto.
Los sistemas de agentes suelen usar modelos separados para visión, habla y lenguaje, lo que aumenta la latencia y fragmenta el contexto entre cada modalidad. Nemotron 3 Nano Omni combina codificadores de visión y audio dentro de una arquitectura híbrida 30B-A3B mixture-of-experts, con contexto de 256K y soporte para entradas de video, audio, imágenes, documentos, gráficos e interfaces.
Arquitectura híbrida MoE de Nemotron 3 Nano Omni, con adaptadores para audio, visión y texto integrados en un mismo modelo de lenguaje. Imagen: NVIDIA.
Según NVIDIA, el modelo alcanza hasta 9 veces más throughput (mayor capacidad de procesamiento por unidad de tiempo) frente a otros modelos omni abiertos con el mismo nivel de interactividad. La compañía también indica que encabeza seis rankings asociados a inteligencia documental y comprensión de video y audio.
El modelo puede operar como los “ojos y oídos” de un sistema de agentes, trabajando junto a Nemotron 3 Super, Nemotron 3 Ultra u otros modelos propietarios. Su uso apunta a tareas como navegación de interfaces, análisis documental y razonamiento sobre audio y video.
Un modelo que cruza video, audio, imágenes y texto sirve cuando la tarea no cabe en una sola entrada. Puede mirar una pantalla mientras escucha una explicación, revisar un PDF con tablas y gráficos o seguir una grabación completa sin separar cada parte del contexto.