Google DeepMind lanza Project Genie, un prototipo de IA que permite crear y explorar mundos interactivos en tiempo real mediante texto e imágenes.

Google DeepMind ha habilitado el acceso a Project Genie, una aplicación web experimental enfocada en la generación de entornos virtuales. La herramienta permite a los usuarios construir, explorar y modificar mundos interactivos utilizando simples descripciones de texto o imágenes cargadas.
El despliegue de este prototipo comenzó hace un par de días, disponible solo para los suscriptores del servicio Google AI Ultra ubicados en Estados Unidos. El objetivo principal es recolectar información sobre el uso de modelos generativos antes de expandir la tecnología a más territorios.
El sistema funciona mediante la combinación de
Esta triada tecnológica facilita la simulación de físicas y la creación de escenarios que reaccionan a las decisiones del usuario.
Un modelo de mundo es un sistema de IA que intenta predecir con base en probabilidades cómo evoluciona un entorno, basándose en interacciones previas. A diferencia de los gráficos 3D tradicionales que están prerenderizados, Genie 3 construye el entorno y sus respuestas en tiempo real mientras se navega.
Project Genie dispone de un flujo dividido en tres etapas técnicas claramente definidas:
El proceso inicia con la función de boceto, donde se definen los mundos mediante instrucciones de texto o imágenes (Prompt ingresado por el usuario). Para lograr mayor precisión antes de la simulación, la integración con Nano Banana Pro permite ajustar visualmente el entorno y definir la perspectiva del personaje en primera o tercera persona.
Una vez generado el escenario, la exploración ocurre en tiempo real y el software construye el camino a medida que el usuario avanza. Esta navegación es dinámica, ya que el motor de física calcula las interacciones al instante y permite ajustar la cámara libremente durante todo el recorrido.
La experiencia creativa se expande finalmente mediante la capacidad de remezcla, que habilita la modificación de mundos ya existentes. Los usuarios pueden iterar sobre sus propias creaciones o las de la galería, aplicando nuevos comandos para producir interpretaciones totalmente distintas a la original.
DeepMind declara que Project Genie opera como una investigación en curso dentro del entorno de Google Labs. Su desarrollo se rige por principios de responsabilidad, buscando entender mejor la interacción humana con los modelos generativos.
A pesar de su capacidad, el sistema presenta desafíos en la fidelidad visual y adherencia a las instrucciones. En las primeras interacciones y comentarios de portales especializados, señalan que los mundos generados muestran ciertas inconsistencias físicas, además de no ajustarse perfectamente a los textos e imágenes introducidos.
En cuanto al control de los personajes, también se ha observado una latencia variable, lo que afecta la precisión del movimiento. Además, las sesiones de generación de entornos están restringidas técnicamente a una duración máxima de 60 segundos.
Más detalles en la siguiente tabla resumen: