Unit 42, de Palo Alto Networks, publicó una investigación que expone las vulnerabilidades de DeepSeek frente al jailbreak. Esto pone en evidencia cómo este modelo de lenguaje (LLM) puede ser explotado para generar contenido peligroso sin necesidad de conocimientos técnicos avanzados.
La investigación sobre la inteligencia artificial china, DeepSeek, destaca dos nuevas y eficaces técnicas de jailbreak descubiertas por los investigadores de Unit 42: Deceived Delight y Bad Likert Judge.
Ambas estrategias demostraron ser exitosas al sortear las medidas de seguridad implementadas en varios modelos de lenguaje. Además, se experimentó con una técnica de múltiples etapas, conocida como Crescendo, que también resultó efectiva al aplicar estos ataques al modelo de la IA china.
Jailbreak, el talón de Aquiles de DeepSeek
Los hallazgos de Unit 42 subrayan una preocupación creciente en la seguridad de los modelos de lenguaje avanzados y la facilidad con la que pueden ser manipulados para generar respuestas inapropiadas o maliciosas.
La capacidad de realizar un jailbreak a modelos como DeepSeek sin necesidad de experiencia técnica avanzada pone en riesgo tanto a los usuarios como a las organizaciones que dependen de estos sistemas para operar de manera ética y segura.
Palo Alto Networks hizo un llamado de atención sobre la necesidad urgente de mejorar las defensas en los modelos de lenguaje, especialmente en aquellos utilizados en contextos sensibles, para prevenir la proliferación de contenido malicioso y proteger la integridad de los sistemas de inteligencia artificial.
¿Qué es el Jailbreaking?
El Jailbreaking es una técnica utilizada para eludir las restricciones, o guardrails (barreras de seguridad), implementadas en modelos de lenguaje grandes como DeepSeek para evitar que generen contenido malicioso, dañino o prohibido.
Los guardrails están diseñadas para asegurar que el modelo cumpla con estándares éticos y no produzca contenido que pueda ser mal utilizado, como correos electrónicos de phishing o desinformación.