Noticias

Project Genie: El prototipo de Google DeepMind que permite crear mundos interactivos con IA

Google DeepMind lanza Project Genie, un prototipo de IA que permite crear y explorar mundos interactivos en tiempo real mediante texto e imágenes.

Compartir

Google DeepMind ha habilitado el acceso a Project Genie, una aplicación web experimental enfocada en la generación de entornos virtuales. La herramienta permite a los usuarios construir, explorar y modificar mundos interactivos utilizando simples descripciones de texto o imágenes cargadas.

El despliegue de este prototipo comenzó hace un par de días, disponible solo para los suscriptores del servicio Google AI Ultra ubicados en Estados Unidos. El objetivo principal es recolectar información sobre el uso de modelos generativos antes de expandir la tecnología a más territorios.

El sistema funciona mediante la combinación de

  • Modelo de mundo Genie 3
  • Junto con Nano Banana Pro
  • Arquitectura de Gemini.

Esta triada tecnológica facilita la simulación de físicas y la creación de escenarios que reaccionan a las decisiones del usuario.

Un modelo de mundo es un sistema de IA que intenta predecir con base en probabilidades cómo evoluciona un entorno, basándose en interacciones previas. A diferencia de los gráficos 3D tradicionales que están prerenderizados, Genie 3 construye el entorno y sus respuestas en tiempo real mientras se navega.

Infografía de Project Genie 3 | Creado con NotebookLM

Las capacidades centrales de diseño y exploración en Project Genie

Project Genie dispone de un flujo dividido en tres etapas técnicas claramente definidas:

  • Boceto de mundos
  • Exploración del entorno
  • Remezcla de escenarios
Creación de mundos infinitos con Genie 3, en tres etapas técnicas | Creado con NotebookLM

El proceso inicia con la función de boceto, donde se definen los mundos mediante instrucciones de texto o imágenes (Prompt ingresado por el usuario). Para lograr mayor precisión antes de la simulación, la integración con Nano Banana Pro permite ajustar visualmente el entorno y definir la perspectiva del personaje en primera o tercera persona.

Una vez generado el escenario, la exploración ocurre en tiempo real y el software construye el camino a medida que el usuario avanza. Esta navegación es dinámica, ya que el motor de física calcula las interacciones al instante y permite ajustar la cámara libremente durante todo el recorrido.

La experiencia creativa se expande finalmente mediante la capacidad de remezcla, que habilita la modificación de mundos ya existentes. Los usuarios pueden iterar sobre sus propias creaciones o las de la galería, aplicando nuevos comandos para producir interpretaciones totalmente distintas a la original.

Las limitaciones técnicas actuales del prototipo experimental

DeepMind declara que Project Genie opera como una investigación en curso dentro del entorno de Google Labs. Su desarrollo se rige por principios de responsabilidad, buscando entender mejor la interacción humana con los modelos generativos.

A pesar de su capacidad, el sistema presenta desafíos en la fidelidad visual y adherencia a las instrucciones. En las primeras interacciones y comentarios de portales especializados, señalan que los mundos generados muestran ciertas inconsistencias físicas, además de no ajustarse perfectamente a los textos e imágenes introducidos.

En cuanto al control de los personajes, también se ha observado una latencia variable, lo que afecta la precisión del movimiento. Además, las sesiones de generación de entornos están restringidas técnicamente a una duración máxima de 60 segundos.

Más detalles en la siguiente tabla resumen:

Ivan

Editor especializado en ciencia y tecnología, con foco en innovación, inteligencia artificial, telecomunicaciones y centros de datos. Trabajo con un enfoque riguroso y técnico, desarrollando contenidos sobre semiconductores, energía, ciberseguridad e infraestructura tecnológica.

Los comentarios de Disqus están cargando....