EN
返回资讯列表
模型

Claude Fable 5 解禁后风波不断:安全升级致性能下降,二次越狱引发争议

2026年6月30日,美国商务部正式解除对Anthropic旗下Claude Fable 5及Mythos 5的出口管制,模型于7月1日恢复全球访问。此前,6月12日因亚马逊研究团队发现越狱方法,商务部以出口管制为由要求全球下架。解禁后,Anthropic部署了新的安全分类器,但导致大量正常请求被误判降级,模型在BridgeBench等基准测试中性能大幅下滑,引发开发者强烈不满。同时,安全研究员Vitto Rivabella在7月2日宣布成功二次越狱,但指出攻击成本极高,实际收益有限。Anthropic还联合谷歌、微软、亚马逊提出行业越狱分级框架,并承诺深化政企合作。

事件背景与解禁

  • 封禁始末:6月12日,美国商务部以出口管制为由,要求Anthropic对Claude Fable 5和Mythos 5实施全球下架,理由是亚马逊研究团队发现可绕过安全防护诱导生成漏洞利用代码。Anthropic因缺乏实时国籍核验手段,暂停了所有用户访问。
  • 解禁条件:6月30日,商务部长Lutnick签署解除令,Anthropic承诺主动检测安全风险、与政府合作制定发布协议、报告恶意活动。模型于7月1日恢复访问,但Mythos 5仅对部分美国机构重开。

安全升级与性能争议

  • 新安全分类器:Anthropic训练了专门拦截越狱手段的分类器,拦截成功率超99%,但代价是日常编程、调试等正常请求更易被误判降级。系统在检测到风险时会自动切换至Opus 4.8,用户收到通知。
  • 性能下降:BridgeMind的BridgeBench测试显示,Fable 5回归后Debugging能力从86.2跌至25.9,Refactoring从73.6跌至38.4,Hallucination从75.9跌至61.7。12个调试任务中仅3个未触发降级,其余被强制转交Opus 4.8并记零分。
  • 用户反馈:开发者抱怨模型频繁拒绝无害请求,如解释“human”一词或统计“raspberry”中字母r的数量。有用户发现后台日志标注“TOO_DUMB_TO_NEED_FABLE”,引发对Anthropic态度的质疑。

二次越狱与行业影响

  • 越狱细节:7月2日,安全研究员Vitto Rivabella宣布成功越狱,耗时20小时,利用小语种(如桑塔利语)和组合攻击绕过三层分类器。但90%的请求被拦截,最终获取的内容多为虚假信息或低危漏洞,实际价值有限。
  • 行业框架:Anthropic联合亚马逊、微软、谷歌提出四维越狱严重程度评估框架(能力增益、增益广度、武器化难度、可发现性),旨在统一风险研判标准。同时启动HackerOne漏洞披露计划,鼓励报告越狱方法。
  • 政企合作:Anthropic承诺发布前让政府机构测试模型、快速共享情报、投入算力开展联合安全研究,并设立漏洞悬赏。

争议与反思

  • 误判与降智:安全分类器的过度拦截导致模型“名存实亡”,用户支付Fable 5的费用却频繁获得Opus 4.8的服务。Anthropic承认这是有意为之的取舍,但开发者认为这损害了产品价值。
  • 二次越狱的启示:尽管越狱成功,但攻击成本极高,表明当前安全措施有效提升了攻击门槛。然而,小语种等盲点暴露了AI安全训练的语料偏差问题。
  • 行业影响:事件凸显了AI安全与可用性之间的平衡难题,以及建立统一安全标准的紧迫性。Anthropic的举措可能推动行业形成更规范的越狱应对机制。
2026年7月3日来源:综合整理

延伸阅读

想深入了解该主题,查看站内相关教程与解析。

查看相关主题