Noticias

NVIDIA presenta Nemotron 3 Nano Omni para agentes de IA multimodal

NVIDIA apunta a agentes que pueden interpretar audio, video, imágenes, documentos y texto desde un mismo modelo abierto

Compartir

NVIDIA presentó Nemotron 3 Nano Omni, un modelo abierto de razonamiento multimodal diseñado para agentes de IA que necesitan interpretar video, audio, imágenes, documentos, gráficos, interfaces y texto desde un mismo sistema. La compañía lo describe como un componente de percepción para flujos de IA agéntica, con entrada multimodal y salida en texto.

Un modelo para reducir pasos de inferencia en agentes multimodales

Los sistemas de agentes suelen usar modelos separados para visión, habla y lenguaje, lo que aumenta la latencia y fragmenta el contexto entre cada modalidad. Nemotron 3 Nano Omni combina codificadores de visión y audio dentro de una arquitectura híbrida 30B-A3B mixture-of-experts, con contexto de 256K y soporte para entradas de video, audio, imágenes, documentos, gráficos e interfaces.

Arquitectura híbrida MoE (Mixture of Experts) de Nemotron 3 Nano Omni, con adaptadores para audio, visión y texto integrados en un mismo modelo de lenguaje. | Créditos: NVIDIA.

Arquitectura híbrida MoE de Nemotron 3 Nano Omni, con adaptadores para audio, visión y texto integrados en un mismo modelo de lenguaje. Imagen: NVIDIA.

Según NVIDIA, el modelo alcanza hasta 9 veces más throughput (mayor capacidad de procesamiento por unidad de tiempo) frente a otros modelos omni abiertos con el mismo nivel de interactividad. La compañía también indica que encabeza seis rankings asociados a inteligencia documental y comprensión de video y audio.

Infografía sobre NVIDIA Nemotron 3 Nano Omni. | Creado con NotebookLM

El modelo puede operar como los “ojos y oídos” de un sistema de agentes, trabajando junto a Nemotron 3 Super, Nemotron 3 Ultra u otros modelos propietarios. Su uso apunta a tareas como navegación de interfaces, análisis documental y razonamiento sobre audio y video.

¿Dónde podría usarse un agente que entiende pantalla, voz y documentos?

Un modelo que cruza video, audio, imágenes y texto sirve cuando la tarea no cabe en una sola entrada. Puede mirar una pantalla mientras escucha una explicación, revisar un PDF con tablas y gráficos o seguir una grabación completa sin separar cada parte del contexto.

  • En el hogar, podría funcionar como base para asistentes capaces de interpretar lo que aparece en pantalla y responder instrucciones habladas.
  • En soporte técnico, permitiría analizar una grabación de pantalla junto con el audio de una llamada y registros asociados.
  • En empresas, puede aplicarse a revisión de documentos, planillas, gráficos, capturas de pantalla y notas de voz dentro de un mismo flujo.
  • En uso de computador, ayuda a que un agente siga cambios de estado en una interfaz gráfica a lo largo del tiempo.
  • En análisis audiovisual, NVIDIA menciona el caso de H Company, que usa Nemotron 3 Nano Omni para analizar grabaciones Full HD de pantalla con resolución nativa de 1920 x 1080 píxeles.

Ivan

Editor especializado en ciencia y tecnología, con foco en innovación, inteligencia artificial, telecomunicaciones y centros de datos. Trabajo con un enfoque riguroso y técnico, desarrollando contenidos sobre semiconductores, energía, ciberseguridad e infraestructura tecnológica.

Los comentarios de Disqus están cargando....