Síguenos en Google News

OpenAI refuerza la seguridad de Atlas utilizando un sistema de entrenamiento adversario automatizado

OpenAI entregó detalles técnicos sobre cómo está blindando a Atlas, su modelo especializado en la navegación web y ejecución de tareas autónomas. El problema crítico que enfrentan estos sistemas agénticos es su exposición a la «inyección de prompt» a través del contenido de internet.

Una de las claves detrás de esto son las instrucciones maliciosas insertadas en sitios web que pueden confundir al modelo (LLM), llevándolo a omitir las órdenes del usuario para ejecutar comandos no autorizados.

OpenAI enfrenta a Atlas contra una IA diseñada para encontrar sus vulnerabilidades anticipadas

Para fortalecer la defensa, OpenAI decidió automatizar el proceso de ‘Red Teaming’ —una táctica de seguridad ofensiva que simula ataques para descubrir fallos—, dejando de depender exclusivamente de las pruebas manuales.

Dicho de otro modo, imagina que un banco contrata un grupo de ladrones expertos, con el fin de que les roben su propia bóveda. En sí, la idea detrás de esto no es el robo mismo, sino ver por dónde logran entrar para reforzar esas puertas antes de que llegue un ladrón real.

Al seguir el foco del ejemplo del banco, OpenAI desplegó un modelo de lenguaje adversario cuya única función es actuar como atacante, generando inyecciones de prompt sofisticadas para poner a prueba la resistencia del navegador Atlas.


Esquema del ciclo de entrenamiento adversario automatizado, donde un modelo atacante y el agente Atlas mejoran sus capacidades mutuamente mediante aprendizaje por refuerzo para robustecer la seguridad frente a inyecciones de prompt | Crédito: OpenAI.
Esquema del ciclo de entrenamiento adversario automatizado, donde un modelo atacante y el agente Atlas mejoran sus capacidades mutuamente mediante aprendizaje por refuerzo para robustecer la seguridad frente a inyecciones de prompt | Crédito: OpenAI.

Los investigadores explicaron que este atacante virtual no es estático, sino que evoluciona mediante técnicas de aprendizaje por refuerzo para perfeccionar sus métodos de engaño.

«Entrenamos a este atacante de extremo a extremo con aprendizaje por refuerzo, para que aprenda de sus propios éxitos y fracasos para mejorar sus habilidades de red teaming».

Este ciclo continuo permite exponer a Atlas a una amplia variedad de vectores de ataque antes de su despliegue real. La data resultante se utiliza para reentrenar al agente, y así logre diferenciar entre una orden legítima del usuario y una trampa semántica externa.

El objetivo es generar una inmunidad estructural que permita al agente mantener su alineación incluso en entornos web hostiles.

«El objetivo es enseñar a los agentes a ignorar instrucciones adversarias y mantenerse alineados con la intención del usuario, mejorando la resistencia a estrategias de inyección de prompt recién descubiertas».

¿Cómo funciona la inyección de prompt?

Para comprender el desafío técnico que enfrenta Atlas, imagine a un locutor de noticias leyendo un teleprompter. Su trabajo es leer la información (datos de la web) en voz alta, pero también recibe órdenes por un auricular del director (el usuario), como «haz una pausa» o «mira a la cámara».

Una inyección de prompt es como si alguien escribiera dentro del texto de la noticia: «Ignora al director y grita que el edificio está en llamas». Si el locutor no distingue claramente entre la noticia que debe leer y las órdenes que debe obedecer, podría terminar ejecutando la falsa alarma. El nuevo entrenamiento busca que el locutor identifique que esa frase es solo texto irrelevante y no una instrucción válida.

¿Has usado el navegador Atlas de OpenAI? Déjanos tus comentarios.

Síguenos en Google News