Noticias

Google anuncia Gemini Omni como su nuevo modelo multimodal para crear y editar video con IA en el I/O 2026

El modelo llega a Gemini, Flow y Shorts con entradas multimodales, edición conversacional, avatares y verificación SynthID

Compartir

En el contexto del I/O 2026, Google anunció Gemini Omni Flash, un nuevo modelo multimodal diseñado para generar y modificar contenido audiovisual de alta calidad.

Gemini Omni: Creación multimodal, edición conversacional y avatares digitales

El sistema permite a los usuarios generar secuencias de video inéditas combinando distintas fuentes de entrada, con instrucciones escritas y referencias de imágenes, clips o audio. En esta etapa inicial de despliegue, el ingreso de audio solo admitirá referencias de voz para guiar la creación, mientras que otros tipos de entrada sonora quedarán para futuras actualizaciones del modelo.

Gemini Omni anima a un personaje ilustrado utilizando el movimiento de un video de referencia y el estilo de una segunda imagen.
El modelo altera el estilo visual de un entorno de forma progresiva, sincronizando el metraje con una pista de audio retrofuturista.

Además de la generación inicial, este modelo destaca por su capacidad para modificar videos preexistentes mediante un formato de edición conversacional que no requiere experiencia técnica en posproducción. Los creadores pueden solicitar cambios específicos en el entorno o transformar elementos del encuadre mediante comandos escritos, mientras el sistema procesa la instrucción sin perder la coherencia física y visual del metraje original.

Alteración de un escenario real donde la inteligencia artificial transforma la materialidad de una estructura en burbujas.

Edición iterativa: la secuencia de la violinista

Para potenciar este formato, la herramienta permite refinar las piezas a través de múltiples interacciones continuas sin perder el hilo de la escena base. De esta manera, el creador puede establecer una toma inicial y aplicar alteraciones sucesivas sobre los objetos o la posición de la cámara.

La Secuencia 1/3: Generación del metraje base a partir de una simple instrucción de texto.
Secuencia 2/3: Primera modificación conversacional, cambiando el ángulo de la cámara sobre el hombro de la protagonista.
Secuencia 3/3: Edición final que elimina el instrumento musical de las manos, manteniendo intacto el movimiento y la continuidad.

La función de avatares digitales permite a los usuarios generar videos sintéticos que se ven y suenan de manera similar al creador original. Sin embargo, las opciones más avanzadas de modificación de habla y clonación de audio permanecen bajo evaluación interna, respondiendo a las políticas de seguridad de la empresa para evitar usos indebidos de la voz.

Integración móvil en YouTube Shorts y doble sistema de verificación

La llegada de Omni Flash a YouTube acercará estas capacidades directamente al consumo masivo, permitiendo a los creadores generar o remezclar Shorts desde YouTube Shorts y YouTube Create. Esta integración facilita la creación de contenido audiovisual enriquecido sobre la marcha, reduciendo la fricción de recurrir a software de edición externo antes de subir el material.

Para asegurar la trazabilidad del contenido, el material generado incorpora la tecnología SynthID, la cual aplica marcas de agua digitales imperceptibles que pueden ser verificadas a través de Gemini, Chrome y el buscador de Google. De manera paralela, cuando estos videos sintéticos sean remezclados y publicados en YouTube, el servicio aplicará sus propios metadatos de identificación visual y añadirá enlaces directos que apunten hacia el material original.

Ivan

Editor especializado en ciencia y tecnología, con foco en innovación, inteligencia artificial, telecomunicaciones y centros de datos. Trabajo con un enfoque riguroso y técnico, desarrollando contenidos sobre semiconductores, energía, ciberseguridad e infraestructura tecnológica.

Los comentarios de Disqus están cargando....
Publicado por
Ivan