Síguenos en Google News
Captura de imagen de un video de Google DeepMind

Genie 3 es el nuevo modelo de lenguaje de IA de Google DeepMind para generar videos interactivos

Google DeepMind acaba de anunciar Genie 3. Lo anterior supone su nuevo modelo de lenguaje de inteligencia artificial (IA). Aunque, aquí la empresa lo considera como un world model. Sería algo así como «modelo mundial» o «modelo de mundo» de propósito general. Es decir, posibilita generar una diversidad de entornos interactivos.

Genie 3 es la versión sucesora de Genie 1 y Genie 2. La actual parte de instrucciones de texto para producir «mundos dinámicos que puedes navegar en tiempo real a 24 cuadros por segundo, manteniendo la consistencia durante unos minutos a una resolución de 720p», según comentan desde la compañía. En otras palabras, diseña entornos 3D con los cuales los usuarios y los agentes de IA son capaces de interactuar en tiempo real.

Los world models pueden usar su comprensión del mundo para simular aspectos del mismo. Ello deja a los agentes predecir cómo evolucionará un entorno y cómo lo afectarán sus acciones. Asimismo, esos world models constituyen un paso clave en el camino hacia la inteligencia artificial general (AGI, por sus siglas en inglés).

Los modelos de lenguaje de video de Google se componen de Genie y Veo. Los más recientes de cada uno son Genie 3 y Veo 3. «Cada uno de estos modelos marca un avance en diferentes capacidades de simulación de mundos. Genie 3 es nuestro primer world model que permite la interacción en tiempo real, a la vez que mejora la consistencia y el realismo en comparación con Genie 2″, detalla la organización.

Comparativa de distintos modelos para generación de video | Fuente: Google DeepMind

El novedoso Genie 3 cuenta con diversas capacidades. Entre ellas, se encuentran:

  • Modelado de las propiedades físicas del mundo: posibilita experimentar fenómenos naturales como el agua y la iluminación, e interacciones ambientales complejas.
  • Simulación del mundo natural: genera ecosistemas vibrantes, desde comportamientos animales hasta intrincada vida vegetal.
  • Modelado de animación y ficción: Deja volar la imaginación para crear escenarios fantásticos y personajes animados expresivos.
  • Explorar lugares y entornos históricos: trasciende las fronteras geográficas y temporales para explorar lugares y épocas pasadas.

Genie 3 también amplía la frontera de las capacidades en tiempo real. Sobre eso, la firma explica: «Lograr un alto grado de controlabilidad e interactividad en tiempo real en Genie 3 requirió avances técnicos significativos. Durante la generación autorregresiva de cada fotograma, el modelo debe tener en cuenta la trayectoria generada previamente, que crece con el tiempo».

Además, para que los mundos generados por IA sean inmersivos, deben mantener una consistencia física a largo plazo. Las creaciones del nuevo modelo se mantienen «prácticamente constantes durante varios minutos, con una memoria visual que se remonta hasta un minuto atrás».

Asimismo, el desarrollo contiene ciertas limitaciones:

  • Espacio de acción limitado: si bien los eventos mundiales desencadenables permiten una amplia gama de intervenciones ambientales, estas no son siempre realizadas por el propio agente. El rango de acciones que los agentes pueden realizar de manera directa es limitado en la actualidad.
  • Interacción y simulación de otros agentes: modelar con precisión interacciones complejas entre múltiples agentes independientes en entornos compartidos sigue siendo un reto de investigación en curso.
  • Representación precisa de ubicaciones reales: Genie 3 todavía es incapaz de simular ubicaciones reales con precisión geográfica perfecta.
  • Representación de texto: el texto claro y legible suele generarse solo cuando se proporciona en la descripción del mundo de entrada (input world description).
  • Duración limitada de la interacción: el modelo admite unos pocos minutos de interacción continua, en lugar de largas horas.

Según The Verge, Genie 3 se lanza como una «vista previa de investigación limitada» la cual estará disponible para un pequeño grupo de académicos y creadores. Así, los desarrolladores comprenderán mejor los riesgos y cómo mitigarlos. Google evalúa cómo llevar Genie 3 a más personas en el futuro.

Fuente: Google DeepMind

Síguenos en Google News