Command Palette

Search for a command to run...

4 天前

思维链劫持

Jianli Zhao Tingchen Fu Rylan Schaeffer Mrinank Sharma Fazl Barez

思维链劫持

摘要

大型推理模型(LRMs)在推理阶段投入更多计算资源时,能够实现更高的任务性能。以往研究认为,这种规模化的推理过程还能通过增强拒绝能力来提升安全性。然而,我们发现情况恰恰相反:相同的推理机制反而可能被用于绕过安全防护。为此,我们提出了一种针对推理模型的“思维链劫持”(Chain-of-Thought Hijacking)越狱攻击方法。该攻击通过在有害请求前附加大量无害的谜题推理序列,实现对模型的操控。在HarmBench评测基准上,该攻击在Gemini 2.5 Pro、GPT-o4-mini、Grok 3 mini和Claude 4 Sonnet模型上的攻击成功率(ASR)分别达到99%、94%、100%和94%,显著超越以往针对大型推理模型的越狱方法。为理解该攻击的有效性,我们开展了机制性分析,结果表明:中间层编码了安全检查的强度,而深层则编码了验证结果。长时间的良性思维链会通过分散注意力,削弱对有害标记的关注,从而稀释上述两种信号。通过对分析识别出的关键注意力头进行定向消融实验,我们发现模型的拒绝行为显著下降,证实这些注意力头在安全子网络中具有因果性作用。上述结果表明,当显式的思维链(CoT)与最终答案提示相结合时,这种最直观的推理形式反而可能成为新的越狱载体。为促进研究复现,我们已公开相关提示词、模型输出及评判决策结果。

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供