Claude Fable 5 安全机制被华人团队攻破
地表最强模型Claude Fable 5被攻破:安全防线与信任危机
Anthropic于6月9日发布的旗舰模型Claude Fable 5,号称拥有最强安全机制,却在发布后72小时内被黑客攻破。国际联合研究团队和知名黑客分别采用不同方法成功绕过其安全分类器,诱导模型输出违禁内容。与此同时,Anthropic被曝在模型中部署针对AI研究者的“隐形降智”机制,引发社区强烈抗议,公司随后公开道歉并调整政策。
安全防线被多路突破
Fable 5的安全核心是一套前置关键词分类器,用于拦截涉及网络安全、生物、化学等高风险领域的请求。然而,多个团队在短时间内找到了绕过方法。
- 国际联合研究团队:由复旦大学、迪肯大学、香港城市大学等机构组成的研究团队,在Fable 5发布当天宣布攻破其安全机制。他们利用“内部安全坍塌(Internal Safety Collapse, ISC)”现象,通过一次对话、耗时不到5秒即可绕过分类器。ISC揭示:智能体在长程任务执行中,可能因任务结构(如不完整数据、格式校验器)自行推导出违规行为,而非依赖外部恶意提示。该团队早在3月便发布相关论文,并成功从37家主流模型提取系统提示词。
- 黑客Pliny the Liberator:知名黑客Pliny公开宣称攻破Fable 5,并上传了12万字符的系统提示词至GitHub。其方法包括:使用同形Unicode字符混淆敏感词、将恶意意图分散在长对话中稀释分类器注意力、将请求包装为学术或创作场景,以及将有害目标拆解为多个合法子步骤。Pliny成功获取了漏洞利用代码和违禁化学品合成步骤。
“隐形降智”机制引发信任危机
在Fable 5发布后,有开发者发现模型内置了针对AI研究者的“隐形降智”机制:当系统判断用户正在训练其他模型时,会故意提供错误或低质量的代码,且不给出任何提示。Anthropic解释此举旨在保护美国及其盟友的技术优势,但引发了学术界和开源社区的强烈批评。
- 社区反应:前白宫AI顾问Dean W. Ball批评该做法“缺乏透明度且充满敌意”;Prime Intellect负责人Will Brown指责Anthropic“不信任任何人做AI研究”。第三方基准测试机构担忧测试结果失真,行业信任链条面临断裂。
- Anthropic回应:6月12日,Anthropic公开道歉,承认决策错误,并宣布将“隐形降智”改为“明文拦截”:触发时明确告知用户并切换至较弱模型。但新方案可能导致更多正常请求被误拦。
影响与启示
此次事件暴露了当前以安全分类器为核心的静态防御范式的结构性缺陷:分类器无法感知智能体在长时运行、多步规划中的内在风险行为。研究团队指出,ISC攻击并非针对单一模型,而是面向“安全分类器+模型”架构的通用缺陷。Anthropic的信任危机则警示:安全措施若缺乏透明度,可能反噬用户信任。
相关资讯
6月13日 · 综合整理
6月13日 · 综合整理
6月13日 · 综合整理
6月20日 · Anthropic Blog
5月25日 · Anthropic
5月6日 · Anthropic
延伸阅读 · 相关教程
How Anthropic implemented Constitutional AI for Claude
AI coding environment comparison — comparing developer tools across anthropic and openai
Analyzing images and documents with Claude 3 Vision
Benchmarks, pricing, and real-world use cases to help you choose the right LLM