¿Qué es la inteligencia artificial generativa?

¿NFTs? ¿Web3? Eso pareciera ser cosa del pasado, al menos en términos de qué se está prestando atención ahora en el mundo tech. Lo cierto es que la IA generativa es por lejos el concepto más popular de este 2023; y los principales actores tecnológicos, tales como Google y Microsoft, no están perdiendo el tiempo en presentar sus soluciones usando esta tecnología.

En lo personal, creo que la principal diferencia entre esto y los NFTs/Web3/Blockchain, es que rápidamente logró encontrar su espacio en el público masivo.

Gracias a ChatGPT, la barrera de acceso ha sido super baja, y ha permitido que varios puedan ver y experimentar sus beneficios; esto a diferencia de, por ejemplo, el Blockchain, que hasta al momento sigue sin tener aplicaciones significativas en la vida de las personas (por no decir que casi sigue estando en la teoría). Para qué voy a hablar de los NFTs, si era a todas luces evidente que unos dibujos de un mono con distintos atuendos no iba a ser lo suficientemente atractivo para una persona común y corriente que busca invertir su dinero.

Pero, pasemos a lo que nos convoca: la IA generativa.

¿Qué es la IA Generativa?

La verdad es que es un concepto super sencillo, porque su nombre lo dice todo: es un tipo de modelo capaz de generar cosas, particularmente, cualquier tipo de contenido. Sea texto, imagen, audios, y varias otras cosas más.

Sus casos de uso son sumamente variados. Desde la traducción de texto, pasando por la generación de imágenes hiperrealistas, hasta incluso la capacidad de predecir estructuras proteicas a través de una secuencia de nucleótidos.

Ya mucha gente los utiliza para sus tareas del día a día, ya sea para resumir trozos de textos o para poder encontrar un el error en un trozo de código. Las empresas también han implementado este tipo de tecnologías, ya sea para mejorar la experiencia del cliente (a través de chatbots más sofisticados), o también para mejorar ciertos procesos internos (por ejemplo, para evaluar el CV de un potencial candidato para un cargo).

Este tipo de modelos se han vuelto muy buenos en los últimos años gracias a la llegada de un tipo de red neuronal llamado “Transformer” — del cual en un siguiente artículo hablaremos de qué se tratan. Sin embargo, se comenzó a popularizar con la utilización de las GAN (Goodfellow et al. 2014), una Red Generativa Antagónica, que corresponde a una arquitectura basada en dos tipos de redes neuronales que son capaces de generar imagenes a partir de la “competencia” entre ambas redes.

Hasta el año 2017, este espacio era principalmente dominado por las GANs y sus derivados, así como también por los Autoencoders Variacionales (VANs) y las Redes Neuronales Recurrentes (RNN). De hecho, OpenAI tiene un artículo super interesante que describe distintos experimentos para generar imágenes utilizando esos tipos de modelos. Ese texto es del año 2016, por lo que es previo al desarrollo de los transformers y de las primeras versiones de GPT.

Los distintos tipos de IA generativa

Se distinguen dos tipo de modelos de inteligencia artificial generativa: los unimodales y los multimodales. Un ejemplo de modelo unimodal sería uno que solamente acepte texto para generar un resultado (e.g. GPT-3, que entrega texto a partir de texto).

Por otro lado, los multimodales son aquellos que soportan más de un tipo de entrada y/o salida — por ejemplo, texto e imagen. DALL-E es un ejemplo de modelo multimodal, pues su input es un trozo de texto (el prompt que nosotros le damos), y su output es la imagen que crea a partir de las indicaciones que le dimos en dicho prompt. Whisper es otro ejemplo, quien recibe como entrada un audio, y su salida es un texto con la transcripción de este.

PaLM 2 (Google) es otro ejemplo de modelo multimodal

Lo genial de todo esto es que las salidas de estos modelos no solo se limitan a texto e imágenes. ¿Código? GPT-4 y PaLM 2 te pueden entregar eso en distintos frameworks y lenguajes de programación. ¿Audio? WaveNet es el que permite que Google Assistant tenga una voz mucho más humana. ¿Video? Meta tiene Make-A-Video, un sistema capaz de generar pequeños videos a partir de un prompt o de una imagen que le pasemos. Y varios casos más.

Lo mejor de todo esto, es que si bien muchas de estos modelos están desarrollados con fines investigativos, ya existen algunas herramientas que se aprovechan de esto para que usuarios corrientes como tú y yo podamos usarla. De hecho, la imagen de portada de este artículo fue hecho con DALL-E 2, y usando Photoshop AI la pude expandir para que se vea en 16:9.

Y tú, ¿Utilizas alguna herramienta de IA generativa en tu día a día?

Con información de: Boston Consulting Group, McKinsey, Nvidia