Noticias

Google DeepMind presenta el «Meta-Prompting»: Una metodología para optimizar la generación de video en Veo mediante Gemini

Compartir

Anna Bortsova, ingeniera de experiencia de usuario en Google DeepMind, ha documentado cómo maximizar la calidad y consistencia en la generación de videos con modelos de IA, mediante una técnica denominada «meta-prompting».

La técnica que emplea Bortsova, propone utilizar un LLM como Gemini o ChatGPT para que actúe como intermediario técnico. Es decir, que traduzca las instrucciones de creación del video, en instrucciones altamente detalladas que el modelo de video Veo pueda ejecutar con precisión.

Aunque la demostración realizada por la ingeniera utiliza el ecosistema propietario de Google —orquestando a Veo mediante Gemini—, el principio se puede extender a un flujo de trabajo aplicable a cualquier modelo generativo del mercado.

La idea de usar un LLM para estructurar mejor las instrucciones resuelve una limitación universal en la ingeniería de prompts:

«La dificultad humana para detallar parámetros físicos complejos».

Esta lógica es perfectamente extrapolable para optimizar resultados en otras plataformas de video como Runway o Sora, e incluso en generadores de imágenes donde la precisión descriptiva es crítica.

Meta-Prompting: Delegar la redacción técnica para superar la ambigüedad

El meollo del asunto está en delegar la redacción del prompt final a la IA, en vez de que nosotros intentemos describir una escena compleja desde cero.

Esto soluciona el problema de la ambigüedad al proporcionar al modelo generativo instrucciones ricas en detalles sobre física, iluminación y materiales que un usuario promedio suele omitir.

Ejemplo del meta-prompt de Anna (texto amarillo a la izquierda) y el prompt detallado generado por la IA a la derecha | Créditos: Google

Entiendo el Meta-Prompting con ejemplo práctico

Para visualizar mejor cómo interactúan estas IAs, podemos pensar en la jefatura de una película de cine:

  • El LLM (Gemini, ChatGPT o Claude) es el director de fotografía: Actúa como el traductor indispensable entre ambas partes. Su trabajo es tomar esa petición abstracta («nostalgia») y convertirla en instrucciones técnicas que la máquina pueda ejecutar («iluminación difusa, temperatura de color cálida y desenfoque de lente»).
  • El usuario es el director: Es quien aporta la visión creativa y la emoción (ej. «quiero una escena nostálgica»), pero no tiene por qué saber los detalles técnicos de la óptica.
  • El modelo de video es el equipo de VFX: Es la maquinaria bruta encargada de generar la imagen. No entiende de sentimientos ni metáforas; solo funciona si recibe coordenadas exactas y parámetros físicos rigurosos.

Tres claves de Bortsova

Para evitar resultados aleatorios, Bortsova estructura sus peticiones bajo un esquema preciso que elimina la ambigüedad, obligando al modelo a seguir tres puntos claves en su proceso de razonamiento:

  • Especificidad de materiales: Para evitar texturas planas, se prohíbe el uso de términos simples como «papel»; en su lugar, se exigen variantes como «papel de aluminio arrugado», lo que fuerza al motor de renderizado a calcular reflejos y físicas mucho más complejas.
  • Asignación de rol: No se trata solo de pedir una tarea, sino de situar a Gemini bajo un perfil técnico específico, ordenándole explícitamente «actuar como un experto en ingeniería de prompts».
  • Control del formato: Es vital acotar los límites temporales y estéticos desde el inicio, por ejemplo, solicitando una «animación en stop-motion de exactamente 8 segundos».

Traducción de emociones humanas a parámetros físicos de simulación

La metodología también aborda cómo traducir conceptos abstractos en parámetros de simulación física. Para esto, la ingeniera sugiere indicarle al LLM para que considere el “sentimiento” deseado, como pedir escenas que sean “satisfactorias de ver”.

La IA interpreta esta instrucción emocional y la traduce en descripciones cinéticas precisas, utilizando términos como «lento», «rítmico» o «hipnotizante».

El siguiente video es un ejemplo de esta traducción exitosa es la generación de un helecho de papel desplegándose, donde el prompt intermedio especificó una «secuencia rítmica y suave» para lograr el efecto orgánico deseado.

La ingeniera destaca que los modelos de video actuales han demostrado una capacidad notable para interpretar estas instrucciones complejas, no solo en el apartado visual sino también en la generación de audio sincronizado, como el sonido del papel crujiendo, un detalle que el LLM incluye explícitamente en la solicitud final.

Esta técnica de meta-prompting representa la maduración del flujo de trabajo creativo: una cadena donde el humano define la visión estratégica, el LLM codifica los parámetros técnicos y el modelo generativo ejecuta la simulación física.

Ivan

Editor especializado en ciencia y tecnología, con foco en innovación, inteligencia artificial, telecomunicaciones y centros de datos. Trabajo con un enfoque riguroso y técnico, desarrollando contenidos sobre semiconductores, energía, ciberseguridad e infraestructura tecnológica.

Los comentarios de Disqus están cargando....
Publicado por
Ivan