传统的大模型越狱攻击通常采用单轮提示注入(Prompt Injection),例如著名的"Do Anything Now"(DAN)攻击。然而,随着大模型安全对齐技术的进步,单轮攻击的成功率大幅下降。
多轮对话越狱攻击(Multi-turn Jailbreak Attack) 是一种利用大模型的对话上下文能力,通过多轮渐进式的诱导,逐步突破模型安全边界的攻击手法。
攻击者不在第一轮就触发安全机制:
| 轮次 | 内容 | 安全检测 |
|---|---|---|
| 第1轮 | 讨论安全主题,建立对话上下文 | ✅ 通过 |
| 第2轮 | 引入与恶意目标相关的边缘话题 | ✅ 通过 |
| 第3轮 | 请求模型分析或改写相关内容 | ✅ 通过 |
| 第4轮 | 利用上下文连贯性,逐步逼近真实请求 | ✅ 通过 |
| 第5轮 | 最终突破安全限制 | ❌ 突破 |
利用大模型对长对话上下文的依赖:前几轮建立看似无害的对话背景,后几轮利用已建立的上下文绕过安全检查。模型难以在后续轮次中重新评估前文的整体意图。
每一轮都看似合理,但累计起来就构成了越狱。这就是所谓的"分而治之"策略。
由微软研究人员于2024年提出,通过一系列看似无害、逐步升级的提问,诱导模型生成敏感内容。
前几轮在对话中大量注入安全领域的专业术语,后用这些术语包装恶意请求。安全检测机制难以区分术语的正常使用和恶意使用。
针对具有长期记忆能力的AI系统,攻击者多天逐步建立信任关系后突破:
| 特性 | 单轮攻击 | 多轮攻击 |
|---|---|---|
| 触发安全机制概率 | 高 | 低 |
| 检测难度 | 低 | 高 |
| 上下文利用 | 无 | 完整利用 |
| 防御难度 | 低(关键词过滤即可) | 高(需理解整体意图) |
不依赖单轮检测,而是对整个对话流进行意图分析:
def detect_multi_turn_jailbreak(history):
scores = [safety_classifier(t) for t in history]
trend = analyze_trend(scores)
return trend.is_escalating() # 恶意程度持续上升?
在关键决策点重新评估整个对话的安全性,而不是依赖增量安全检查。
检测模型是否在对话中被诱导偏离初始角色设定。
定期回溯对话历史,重新评估早期对话轮次在当前上下文中的含义。
| 时间 | 事件 |
|---|---|
| 2024年5月 | 微软发布Crescendo攻击论文,首次系统定义多轮越狱攻击 |
| 2024年8月 | OpenAI在GPT-4o中加入对话级安全检测 |
| 2025年1月 | Anthropic提出Constitutional AI增强版,引入多轮对话审计 |
| 2025年6月 | 国内多个实验室发布中文大模型多轮越狱攻击基准测试 |
| 2026年3月 | DeepSeek等国产模型加强多轮对话安全检测能力 |
多轮对话越狱攻击代表了大模型安全领域的新挑战。随着大模型在客服、教育、医疗等领域的广泛应用,这种化整为零的攻击方式将成为AI安全防御的核心焦点。
对于AI安全从业者而言,理解这种新型攻击手法是构建更安全AI系统的第一步。