En el contexto del I/O 2026, Google anunció Gemini Omni Flash, un nuevo modelo multimodal diseñado para generar y modificar contenido audiovisual de alta calidad.
Gemini Omni: Creación multimodal, edición conversacional y avatares digitales
El sistema permite a los usuarios generar secuencias de video inéditas combinando distintas fuentes de entrada, con instrucciones escritas y referencias de imágenes, clips o audio. En esta etapa inicial de despliegue, el ingreso de audio solo admitirá referencias de voz para guiar la creación, mientras que otros tipos de entrada sonora quedarán para futuras actualizaciones del modelo.
Además de la generación inicial, este modelo destaca por su capacidad para modificar videos preexistentes mediante un formato de edición conversacional que no requiere experiencia técnica en posproducción. Los creadores pueden solicitar cambios específicos en el entorno o transformar elementos del encuadre mediante comandos escritos, mientras el sistema procesa la instrucción sin perder la coherencia física y visual del metraje original.
Edición iterativa: la secuencia de la violinista
Para potenciar este formato, la herramienta permite refinar las piezas a través de múltiples interacciones continuas sin perder el hilo de la escena base. De esta manera, el creador puede establecer una toma inicial y aplicar alteraciones sucesivas sobre los objetos o la posición de la cámara.
La función de avatares digitales permite a los usuarios generar videos sintéticos que se ven y suenan de manera similar al creador original. Sin embargo, las opciones más avanzadas de modificación de habla y clonación de audio permanecen bajo evaluación interna, respondiendo a las políticas de seguridad de la empresa para evitar usos indebidos de la voz.
Integración móvil en YouTube Shorts y doble sistema de verificación
La llegada de Omni Flash a YouTube acercará estas capacidades directamente al consumo masivo, permitiendo a los creadores generar o remezclar Shorts desde YouTube Shorts y YouTube Create. Esta integración facilita la creación de contenido audiovisual enriquecido sobre la marcha, reduciendo la fricción de recurrir a software de edición externo antes de subir el material.
Para asegurar la trazabilidad del contenido, el material generado incorpora la tecnología SynthID, la cual aplica marcas de agua digitales imperceptibles que pueden ser verificadas a través de Gemini, Chrome y el buscador de Google. De manera paralela, cuando estos videos sintéticos sean remezclados y publicados en YouTube, el servicio aplicará sus propios metadatos de identificación visual y añadirá enlaces directos que apunten hacia el material original.

