ESET analiza cómo la prompt injection plantea serios riesgos para los modelos de lenguaje, permitiendo manipulación de datos.
La seguridad de los grandes modelos de lenguaje (LLM, por sus siglas en inglés) está en riesgo debido a una vulnerabilidad conocida como prompt injection, que permite a atacantes manipular respuestas, acceder a datos sensibles y comprometer el funcionamiento de estos sistemas.
Un prompt es una instrucción o texto que los usuarios proporcionan para interactuar con modelos de lenguaje como ChatGPT o Gemini. La prompt injection explota la posibilidad de que estos modelos confundan las entradas de los usuarios con las instrucciones predefinidas durante su configuración o entrenamiento. Esto puede derivar en que el modelo realice acciones o genere respuestas contrarias a sus límites de seguridad.
En estos ataques, un cibercriminal podría lograr que el modelo:
Incluso, mediante integraciones con APIs, se podría ejecutar código malicioso en dispositivos de los usuarios.
Tipos de prompt injection
Los ataques se dividen en dos categorías principales:
La organización OWASP describe casos hipotéticos de ataques:
¿Cómo se diferencia del jailbreak?
El prompt injection se enfoca en manipular salidas y comportamientos mediante instrucciones maliciosas, mientras que el jailbreak busca evadir las configuraciones de seguridad del modelo, desbloqueando funciones restringidas.
Mitigación de riesgos
El framework MITRE ATLAS propone medidas para minimizar esta vulnerabilidad:
Con la adopción de estas prácticas, es posible reforzar la seguridad de los modelos de lenguaje y mitigar el impacto de la prompt injection.
¿Qué opinas sobre los retos que presenta la prompt injection en el campo de la inteligencia artificial?