OpenAI
IMAGEN: Getty Images

OpenAI entrena GPT-4 con millones de horas de videos de YouTube

En un reciente informe del New York Times, se revela que OpenAI habría utilizado más de un millón de horas de contenido de YouTube para entrenar su avanzado modelo de inteligencia artificial, GPT-4. Esta acción podría estar en conflicto con las políticas establecidas por la plataforma de videos, según declaraciones de Neal Mohan, CEO de YouTube, quien en una entrevista para Bloomberg, catalogó estas prácticas como una “violación clara” de los términos de servicio.

Los términos de servicio de YouTube prohíben expresamente la descarga de su contenido por cualquier medio, incluido el uso de bots o raspadores, sin permisos explícitos de la compañía. Estas restricciones buscan proteger los derechos y expectativas de los creadores que suben sus obras a la plataforma. “Cuando un creador sube su arduo trabajo a nuestra plataforma, tiene ciertas expectativas. Una de esas expectativas es que se respetarán los términos de servicio”, afirmó Mohan.

Según fuentes citadas por The New York Times, incluso miembros del equipo de OpenAI, incluido su presidente Greg Brockman, participaron personalmente en la recolección de videos de YouTube. Esta estrategia fue parte de un esfuerzo por acumular suficientes datos para el entrenamiento de GPT-4, utilizando Whisper, el software de transcripción de AI de OpenAI, para facilitar la recolección.

Este informe no solo pone a OpenAI en una situación delicada frente a Google, propietario de YouTube, sino que también agrega tensión a la ya competitiva carrera por el liderazgo en el desarrollo de la inteligencia artificial generativa. Hasta el momento, Google no ha formulado acusaciones específicas contra OpenAI, pero la situación podría intensificar las disputas legales en el ámbito de la propiedad intelectual en IA, donde ya OpenAI y Meta enfrentan demandas por el entrenamiento de sus modelos de IA con obras protegidas por derechos de autor.

Este escenario no solo subraya los retos éticos y legales en la era de la inteligencia artificial, sino que también refleja la complejidad de entrenar modelos de IA responsables y respetuosos con los derechos de autor.

¿Cuál es tu perspectiva sobre el uso de contenido protegido para entrenar modelos de IA?

FUENTE