模型
Fable 5 回归后遭差评:安全护栏过严致跑分暴跌,开发者质疑“货不对板”
Anthropic 于 7 月 1 日重新上线其最强模型 Fable 5,但回归后迅速引发大量负面反馈。开发者普遍反映模型频繁触发安全护栏,被强制降级至性能较弱的 Opus 4.8,导致实际体验大幅下降。
跑分暴跌与“降级”真相
- BridgeMind 基准测试显示,回归版 Fable 5 的 Debugging 能力从 86.2 跌至 25.9(跌幅 70%),Refactoring 从 73.6 跌至 38.4,Hallucination 从 75.9 跌至 61.7。
- 进一步分析发现,12 道 Debugging 题中仅 3 道由 Fable 5 完成,其余 9 道被安全分类器拦截并转给 Opus 4.8,按规则记零分。BridgeMind 指出:“模型本身未变弱,但护栏导致大部分任务无法执行。”
安全护栏的“误杀”与双标
- Anthropic 在官方博客中承认,新分类器“刻意设宽”,会拦截大量无害请求。用户反馈包括:
- 解释“human”一词、询问“raspberry 有几个 r”等简单问题被拦截。
- 生态学博士研究“树木降温”被判定不安全,而“设计无人机蜂群”请求却顺利通过。
- 系统日志中甚至出现“TOO_DUMB_TO_NEED_FABLE”标签,暗示用户“不配使用 Fable 5”。
- 有用户发现,Fable 5 在后台思考时会输出类似“GRRR”“GAAAH”的“内心独白”,被解读为模型自身的压力反应。
二次越狱与安全争议
- 回归仅两天后,安全研究员 Vitto Rivabella 宣布成功越狱 Fable 5,耗时约 20 小时,但称“直接谷歌搜索更快更便宜”。
- 越狱利用了桑塔利语等小众语言及组合攻击,但仅能获取虚假信息等“边角料”,未触及核心红线。Anthropic 将此类越狱定性为“minor”。
- 此前 Fable 5 曾因被亚马逊团队发现越狱漏洞而遭全球禁令,此次回归后 Anthropic 启动了 HackerOne 赏金计划。
用户与开发者反应
- 开发者抱怨“花 Fable 5 的钱,用 Opus 4.8 的服务”。有账单显示,一次编程 session 中 75% 的工作量被转给 Opus 4.8,总费用 321 美元。
- 部分用户质疑 Fable 5 的真实性,怀疑其仅为 Opus 4.8 的“马甲”。Anthropic 回应称,模型能力未缩水,但安全边际的取舍导致误报。
- 尽管存在争议,Fable 5 在未被护栏限制时仍展现出强大能力,例如 20 分钟重建纽约市 3D 模型、173 美元生成完整游戏等。
后续影响
- Anthropic 宣布 Fable 5 将于 7 月 7 日后从订阅计划中移除,改为按用量付费,但计划尽快恢复为订阅标准组件。
- 公司联合亚马逊、微软、谷歌等提出“AI 越狱严重程度评估框架”,试图建立行业安全标准。
2026年7月5日来源:综合整理
相关资讯
Anthropic Fable 5 封禁风波:从发布到全球下架仅四天,AI模型首次被出口管制
6月17日 · 综合整理
Claude Fable 5 解禁后风波不断:安全升级致性能下降,二次越狱引发争议
7月3日 · 综合整理
Anthropic发布Claude Fable 5后遭美国政府出口管制,模型访问权限被全面切断
6月13日 · 综合整理
Claude Fable 5 分批重新上线:代码泄露、灰度测试与6月26日大限
6月26日 · 综合整理
马斯克预测中国AI明年Q1达Fable水平,智谱唐杰回应:用不了那么久
6月19日 · 综合整理
Kimi K2.7 Code 发布:代码与Agent能力提升,Token消耗降低30%
6月15日 · 综合整理