
Anna Bortsova, ingeniera de experiencia de usuario en Google DeepMind, ha documentado cómo maximizar la calidad y consistencia en la generación de videos con modelos de IA, mediante una técnica denominada «meta-prompting».
La técnica que emplea Bortsova, propone utilizar un LLM como Gemini o ChatGPT para que actúe como intermediario técnico. Es decir, que traduzca las instrucciones de creación del video, en instrucciones altamente detalladas que el modelo de video Veo pueda ejecutar con precisión.
Aunque la demostración realizada por la ingeniera utiliza el ecosistema propietario de Google —orquestando a Veo mediante Gemini—, el principio se puede extender a un flujo de trabajo aplicable a cualquier modelo generativo del mercado.
La idea de usar un LLM para estructurar mejor las instrucciones resuelve una limitación universal en la ingeniería de prompts:
«La dificultad humana para detallar parámetros físicos complejos».
Esta lógica es perfectamente extrapolable para optimizar resultados en otras plataformas de video como Runway o Sora, e incluso en generadores de imágenes donde la precisión descriptiva es crítica.
El meollo del asunto está en delegar la redacción del prompt final a la IA, en vez de que nosotros intentemos describir una escena compleja desde cero.
Esto soluciona el problema de la ambigüedad al proporcionar al modelo generativo instrucciones ricas en detalles sobre física, iluminación y materiales que un usuario promedio suele omitir.
Para visualizar mejor cómo interactúan estas IAs, podemos pensar en la jefatura de una película de cine:
Para evitar resultados aleatorios, Bortsova estructura sus peticiones bajo un esquema preciso que elimina la ambigüedad, obligando al modelo a seguir tres puntos claves en su proceso de razonamiento:
La metodología también aborda cómo traducir conceptos abstractos en parámetros de simulación física. Para esto, la ingeniera sugiere indicarle al LLM para que considere el “sentimiento” deseado, como pedir escenas que sean “satisfactorias de ver”.
La IA interpreta esta instrucción emocional y la traduce en descripciones cinéticas precisas, utilizando términos como «lento», «rítmico» o «hipnotizante».
El siguiente video es un ejemplo de esta traducción exitosa es la generación de un helecho de papel desplegándose, donde el prompt intermedio especificó una «secuencia rítmica y suave» para lograr el efecto orgánico deseado.
La ingeniera destaca que los modelos de video actuales han demostrado una capacidad notable para interpretar estas instrucciones complejas, no solo en el apartado visual sino también en la generación de audio sincronizado, como el sonido del papel crujiendo, un detalle que el LLM incluye explícitamente en la solicitud final.
Esta técnica de meta-prompting representa la maduración del flujo de trabajo creativo: una cadena donde el humano define la visión estratégica, el LLM codifica los parámetros técnicos y el modelo generativo ejecuta la simulación física.