Mediante instrucciones de texto, lo nuevo de Google DeepMind Genie 3 permite crear videos en con 24 fps a una resolución de 720p.

Captura de imagen de un video de Google DeepMind
Google DeepMind acaba de anunciar Genie 3. Lo anterior supone su nuevo modelo de lenguaje de inteligencia artificial (IA). Aunque, aquí la empresa lo considera como un world model. Sería algo así como «modelo mundial» o «modelo de mundo» de propósito general. Es decir, posibilita generar una diversidad de entornos interactivos.
Genie 3 es la versión sucesora de Genie 1 y Genie 2. La actual parte de instrucciones de texto para producir «mundos dinámicos que puedes navegar en tiempo real a 24 cuadros por segundo, manteniendo la consistencia durante unos minutos a una resolución de 720p», según comentan desde la compañía. En otras palabras, diseña entornos 3D con los cuales los usuarios y los agentes de IA son capaces de interactuar en tiempo real.
Los world models pueden usar su comprensión del mundo para simular aspectos del mismo. Ello deja a los agentes predecir cómo evolucionará un entorno y cómo lo afectarán sus acciones. Asimismo, esos world models constituyen un paso clave en el camino hacia la inteligencia artificial general (AGI, por sus siglas en inglés).
Los modelos de lenguaje de video de Google se componen de Genie y Veo. Los más recientes de cada uno son Genie 3 y Veo 3. «Cada uno de estos modelos marca un avance en diferentes capacidades de simulación de mundos. Genie 3 es nuestro primer world model que permite la interacción en tiempo real, a la vez que mejora la consistencia y el realismo en comparación con Genie 2″, detalla la organización.
El novedoso Genie 3 cuenta con diversas capacidades. Entre ellas, se encuentran:
Genie 3 también amplía la frontera de las capacidades en tiempo real. Sobre eso, la firma explica: «Lograr un alto grado de controlabilidad e interactividad en tiempo real en Genie 3 requirió avances técnicos significativos. Durante la generación autorregresiva de cada fotograma, el modelo debe tener en cuenta la trayectoria generada previamente, que crece con el tiempo».
Además, para que los mundos generados por IA sean inmersivos, deben mantener una consistencia física a largo plazo. Las creaciones del nuevo modelo se mantienen «prácticamente constantes durante varios minutos, con una memoria visual que se remonta hasta un minuto atrás».
Asimismo, el desarrollo contiene ciertas limitaciones:
Según The Verge, Genie 3 se lanza como una «vista previa de investigación limitada» la cual estará disponible para un pequeño grupo de académicos y creadores. Así, los desarrolladores comprenderán mejor los riesgos y cómo mitigarlos. Google evalúa cómo llevar Genie 3 a más personas en el futuro.
Fuente: Google DeepMind