模型

Claude Fable 5 解禁后风波不断：安全升级致性能下降，二次越狱引发争议

2026年6月30日，美国商务部正式解除对Anthropic旗下Claude Fable 5及Mythos 5的出口管制，模型于7月1日恢复全球访问。此前，6月12日因亚马逊研究团队发现越狱方法，商务部以出口管制为由要求全球下架。解禁后，Anthropic部署了新的安全分类器，但导致大量正常请求被误判降级，模型在BridgeBench等基准测试中性能大幅下滑，引发开发者强烈不满。同时，安全研究员Vitto Rivabella在7月2日宣布成功二次越狱，但指出攻击成本极高，实际收益有限。Anthropic还联合谷歌、微软、亚马逊提出行业越狱分级框架，并承诺深化政企合作。

事件背景与解禁

封禁始末：6月12日，美国商务部以出口管制为由，要求Anthropic对Claude Fable 5和Mythos 5实施全球下架，理由是亚马逊研究团队发现可绕过安全防护诱导生成漏洞利用代码。Anthropic因缺乏实时国籍核验手段，暂停了所有用户访问。
解禁条件：6月30日，商务部长Lutnick签署解除令，Anthropic承诺主动检测安全风险、与政府合作制定发布协议、报告恶意活动。模型于7月1日恢复访问，但Mythos 5仅对部分美国机构重开。

安全升级与性能争议

新安全分类器：Anthropic训练了专门拦截越狱手段的分类器，拦截成功率超99%，但代价是日常编程、调试等正常请求更易被误判降级。系统在检测到风险时会自动切换至Opus 4.8，用户收到通知。
性能下降：BridgeMind的BridgeBench测试显示，Fable 5回归后Debugging能力从86.2跌至25.9，Refactoring从73.6跌至38.4，Hallucination从75.9跌至61.7。12个调试任务中仅3个未触发降级，其余被强制转交Opus 4.8并记零分。
用户反馈：开发者抱怨模型频繁拒绝无害请求，如解释“human”一词或统计“raspberry”中字母r的数量。有用户发现后台日志标注“TOO_DUMB_TO_NEED_FABLE”，引发对Anthropic态度的质疑。

二次越狱与行业影响

越狱细节：7月2日，安全研究员Vitto Rivabella宣布成功越狱，耗时20小时，利用小语种（如桑塔利语）和组合攻击绕过三层分类器。但90%的请求被拦截，最终获取的内容多为虚假信息或低危漏洞，实际价值有限。
行业框架：Anthropic联合亚马逊、微软、谷歌提出四维越狱严重程度评估框架（能力增益、增益广度、武器化难度、可发现性），旨在统一风险研判标准。同时启动HackerOne漏洞披露计划，鼓励报告越狱方法。
政企合作：Anthropic承诺发布前让政府机构测试模型、快速共享情报、投入算力开展联合安全研究，并设立漏洞悬赏。

争议与反思

误判与降智：安全分类器的过度拦截导致模型“名存实亡”，用户支付Fable 5的费用却频繁获得Opus 4.8的服务。Anthropic承认这是有意为之的取舍，但开发者认为这损害了产品价值。
二次越狱的启示：尽管越狱成功，但攻击成本极高，表明当前安全措施有效提升了攻击门槛。然而，小语种等盲点暴露了AI安全训练的语料偏差问题。
行业影响：事件凸显了AI安全与可用性之间的平衡难题，以及建立统一安全标准的紧迫性。Anthropic的举措可能推动行业形成更规范的越狱应对机制。

2026年7月3日来源：综合整理

anthropic claude fable-5 ai-safety jailbreak export-control

Claude Fable 5 解禁后风波不断：安全升级致性能下降，二次越狱引发争议

事件背景与解禁

安全升级与性能争议

二次越狱与行业影响

争议与反思

Documentation

Getting Started

Learn more