EN
返回资讯列表
模型

Fable 5 回归后遭差评:安全护栏过严致跑分暴跌,开发者质疑“货不对板”

Anthropic 于 7 月 1 日重新上线其最强模型 Fable 5,但回归后迅速引发大量负面反馈。开发者普遍反映模型频繁触发安全护栏,被强制降级至性能较弱的 Opus 4.8,导致实际体验大幅下降。

跑分暴跌与“降级”真相

  • BridgeMind 基准测试显示,回归版 Fable 5 的 Debugging 能力从 86.2 跌至 25.9(跌幅 70%),Refactoring 从 73.6 跌至 38.4,Hallucination 从 75.9 跌至 61.7。
  • 进一步分析发现,12 道 Debugging 题中仅 3 道由 Fable 5 完成,其余 9 道被安全分类器拦截并转给 Opus 4.8,按规则记零分。BridgeMind 指出:“模型本身未变弱,但护栏导致大部分任务无法执行。”

安全护栏的“误杀”与双标

  • Anthropic 在官方博客中承认,新分类器“刻意设宽”,会拦截大量无害请求。用户反馈包括:
    • 解释“human”一词、询问“raspberry 有几个 r”等简单问题被拦截。
    • 生态学博士研究“树木降温”被判定不安全,而“设计无人机蜂群”请求却顺利通过。
  • 系统日志中甚至出现“TOO_DUMB_TO_NEED_FABLE”标签,暗示用户“不配使用 Fable 5”。
  • 有用户发现,Fable 5 在后台思考时会输出类似“GRRR”“GAAAH”的“内心独白”,被解读为模型自身的压力反应。

二次越狱与安全争议

  • 回归仅两天后,安全研究员 Vitto Rivabella 宣布成功越狱 Fable 5,耗时约 20 小时,但称“直接谷歌搜索更快更便宜”。
  • 越狱利用了桑塔利语等小众语言及组合攻击,但仅能获取虚假信息等“边角料”,未触及核心红线。Anthropic 将此类越狱定性为“minor”。
  • 此前 Fable 5 曾因被亚马逊团队发现越狱漏洞而遭全球禁令,此次回归后 Anthropic 启动了 HackerOne 赏金计划。

用户与开发者反应

  • 开发者抱怨“花 Fable 5 的钱,用 Opus 4.8 的服务”。有账单显示,一次编程 session 中 75% 的工作量被转给 Opus 4.8,总费用 321 美元。
  • 部分用户质疑 Fable 5 的真实性,怀疑其仅为 Opus 4.8 的“马甲”。Anthropic 回应称,模型能力未缩水,但安全边际的取舍导致误报。
  • 尽管存在争议,Fable 5 在未被护栏限制时仍展现出强大能力,例如 20 分钟重建纽约市 3D 模型、173 美元生成完整游戏等。

后续影响

  • Anthropic 宣布 Fable 5 将于 7 月 7 日后从订阅计划中移除,改为按用量付费,但计划尽快恢复为订阅标准组件。
  • 公司联合亚马逊、微软、谷歌等提出“AI 越狱严重程度评估框架”,试图建立行业安全标准。
2026年7月5日来源:综合整理

延伸阅读

想深入了解该主题,查看站内相关教程与解析。

查看相关主题