OpenAI refuerza la seguridad de Atlas utilizando un sistema de entrenamiento adversario automatizado

OpenAI entregó detalles técnicos sobre cómo está blindando a Atlas, su modelo especializado en la navegación web y ejecución de tareas autónomas. El problema crítico que enfrentan estos sistemas agénticos es su exposición a la «inyección de prompt» a través del contenido de internet.

Una de las claves detrás de esto son las instrucciones maliciosas insertadas en sitios web que pueden confundir al modelo (LLM), llevándolo a omitir las órdenes del usuario para ejecutar comandos no autorizados.

Análisis de Visa Intelligent Commerce: la arquitectura para los pagos con Agentes de IA

OpenAI enfrenta a Atlas contra una IA diseñada para encontrar sus vulnerabilidades anticipadas

Para fortalecer la defensa, OpenAI decidió automatizar el proceso de ‘Red Teaming’ —una táctica de seguridad ofensiva que simula ataques para descubrir fallos—, dejando de depender exclusivamente de las pruebas manuales.

Dicho de otro modo, imagina que un banco contrata un grupo de ladrones expertos, con el fin de que les roben su propia bóveda. En sí, la idea detrás de esto no es el robo mismo, sino ver por dónde logran entrar para reforzar esas puertas antes de que llegue un ladrón real.

Al seguir el foco del ejemplo del banco, OpenAI desplegó un modelo de lenguaje adversario cuya única función es actuar como atacante, generando inyecciones de prompt sofisticadas para poner a prueba la resistencia del navegador Atlas.

Esquema del ciclo de entrenamiento adversario automatizado, donde un modelo atacante y el agente Atlas mejoran sus capacidades mutuamente mediante aprendizaje por refuerzo para robustecer la seguridad frente a inyecciones de prompt | Crédito: OpenAI.

Los investigadores explicaron que este atacante virtual no es estático, sino que evoluciona mediante técnicas de aprendizaje por refuerzo para perfeccionar sus métodos de engaño.

«Entrenamos a este atacante de extremo a extremo con aprendizaje por refuerzo, para que aprenda de sus propios éxitos y fracasos para mejorar sus habilidades de red teaming».

Este ciclo continuo permite exponer a Atlas a una amplia variedad de vectores de ataque antes de su despliegue real. La data resultante se utiliza para reentrenar al agente, y así logre diferenciar entre una orden legítima del usuario y una trampa semántica externa.

El objetivo es generar una inmunidad estructural que permita al agente mantener su alineación incluso en entornos web hostiles.

«El objetivo es enseñar a los agentes a ignorar instrucciones adversarias y mantenerse alineados con la intención del usuario, mejorando la resistencia a estrategias de inyección de prompt recién descubiertas».

¿Cómo funciona la inyección de prompt?

Para comprender el desafío técnico que enfrenta Atlas, imagine a un locutor de noticias leyendo un teleprompter. Su trabajo es leer la información (datos de la web) en voz alta, pero también recibe órdenes por un auricular del director (el usuario), como «haz una pausa» o «mira a la cámara».

Una inyección de prompt es como si alguien escribiera dentro del texto de la noticia: «Ignora al director y grita que el edificio está en llamas». Si el locutor no distingue claramente entre la noticia que debe leer y las órdenes que debe obedecer, podría terminar ejecutando la falsa alarma. El nuevo entrenamiento busca que el locutor identifique que esa frase es solo texto irrelevante y no una instrucción válida.

¿Has usado el navegador Atlas de OpenAI? Déjanos tus comentarios.

Samsung Galaxy S25 FE obtiene modestos 118 puntos en el ranking especializado de DXOMark

El telescopio James Webb captura la supernova más alejada detectada

Emergen más detalles acerca del inminente anuncio de los audífonos Sony WF-1000XM6

Review Pokémon Legends: Z-A Megadimensión DLC (Nintendo Switch 2)

Review Call of Duty Black Ops 7 para PlayStation 5

Review Oppo Reno 14 F 5G

El iPad mini 8 podría llegar con el chip A20 Pro

Filtran más detalles del próximo iPhone plegable que se espera para el 2026

Xiaomi estaría desarrollando un smartphone delgado y con una batería de 10.000 mAh

Hiram Monroy de AMD: «La colaboración es el habilitador central de la IA»

Nicolás Cánovas de AMD: “La IA no es una carrera de 100 metros, es un Ironman y apenas estamos empezando”

[Video] Conversamos con Elías Inostroza de Samsung Chile sobre el nuevo Galaxy Z Flip7 y Galaxy S25 FE y su alianza con Pokémon GO

¿Qué esperar de Samsung en #CES2026 y qué presentará para consumidores?

Qué es Q-Symphony y cómo puedes usarlo en tu televisor y barra de sonido Samsung

¿Cuándo me toca MagicOS 10 de HONOR? Estos son los dispositivos compatible

Sorteo Ghost of Yotei: revisamos la Collector’s Edition y regalamos el juego

Sorpresa: Final Fantasy VII Remake Intergrade tiene ahora una demo gratuita para Nintendo Switch 2 en la eShop

Team Cherry anuncia DLC gratuito de Hollow Knight: Silksong, además de una versión especial de Nintendo Switch 2 para el Hollow Knight original

OpenAI refuerza la seguridad de Atlas utilizando un sistema de entrenamiento adversario automatizado

OpenAI enfrenta a Atlas contra una IA diseñada para encontrar sus vulnerabilidades anticipadas

¿Cómo funciona la inyección de prompt?

HUAWEI lanzará una edición aniversario por los 10 años del HUAWEI Watch

Starlink finaliza el soporte de su router Gen 1 y regala a cambio el modelo Mini con Wi-Fi 6

HONOR Win: la nueva serie de teléfonos de la marca que reemplazará a los GT 2

Xiaomi 17 Ultra llegará antes de fin de año junto con el Redmi Turbo 5 y un nuevo reloj

Redmi Note 15 Pro+ también es presentado internacionalmente

OpenAI refuerza la seguridad de Atlas utilizando un sistema de entrenamiento adversario automatizado

OpenAI enfrenta a Atlas contra una IA diseñada para encontrar sus vulnerabilidades anticipadas

¿Cómo funciona la inyección de prompt?

Suscríbete