Claude Fable 5 在编程基准中表现两极分化
Claude Fable 5 在编程基准中表现两极:弃考登顶与高成本低分并存
Anthropic 最新发布的 Claude Fable 5 模型在多项编程基准测试中展现出强大能力,但也因安全护栏导致“过度拒绝”问题,并在新基准 Agents' Last Exam(ALE)中暴露出高成本、低通过率的短板。
能力实测:从游戏复刻到机器人设计
开发者社区对 Fable 5 的实测展示了其广泛能力:
- 前端与游戏:纯 CSS 复刻苹果液态玻璃效果;单次提示生成《上古卷轴5》复刻版;8000 行代码克隆初代宝可梦游戏(含全部 151 只宝可梦);程序化生成《孤岛危机》场景。
- 3D 与模拟:在浏览器中构建可导航的国家公园(26.6 万棵树,基于真实海拔数据);生成多智能体交通街区模拟器;用 Three.js 基础几何体拼出波音 747 模型。
- 机械工程:140 万 Token 设计完整人形机器人(含髋、膝、踝等关节);在 Fusion 中生成机械臂。
Fable 5 在 SWE-Bench Pro 上得分 80.3%,领先第二名 11 个百分点;在 Agent Arena 中排名第一。
安全护栏引发“弃考登顶”争议
Fable 5 的系统卡显示,模型内置两级安全护栏:探针实时监控内部激活状态,触发后由独立 LLM 分类器裁决,拦截领域包括网络安全、生物化学及前沿 AI 研发。当检测到“二进制逆向”等任务时,模型会拒绝作答或悄悄降级至 Opus 4.8,且最初不通知用户。
在 ProgramBench 基准(从二进制文件重建源代码)中,Fable 5 200 道题全部拒绝作答。尽管如此,排行榜综合其他基准表现仍将其列在榜首,引发“弃考也能第一”的争议。Anthropic 随后调整政策:触发安全拦截时明确通知用户并切换模型。
ALE 基准:Fable 5 不敌 GPT-5.5,成本高昂
UC Berkeley 团队发布的 Agents' Last Exam(ALE)覆盖 55 个职业、1500+ 真实工作场景任务,要求 Agent 操作完整 GUI/CLI 环境。结果:
- 通过率:GPT-5.5(Codex)以 24.0% 居首,Fable 5(Claude Code)以 22.0% 位列第三。
- 成本:Fable 5 平均每题花费约 15.70 美元,GPT-5.5 仅 3.80 美元,Composer 2.5 为 1.33 美元。Fable 5 跑完全部任务总成本 2315 美元,是 GPT-5.5 的 4 倍以上。
- 最高难度:所有前沿 Agent 通过率均为 0%。
ALE 团队指出,Agent 最常见的失败模式是未验证工作即宣布完成。Fable 5 在 ALE-CLI 子集(覆盖 40 个行业)上通过率 25.2%,远低于 Terminal-Bench 的 82.0% 和 SWE-bench-Pro 的 59.1%。
影响与行业反应
Fable 5 的“过度拒绝”问题并非首次出现,Claude 3 Opus 和 3.5 Sonnet 均有类似记录。Anthropic 的安全策略在防止模型被滥用(如漏洞利用)的同时,也限制了正常编程任务(如二进制逆向)的可用性。开发者面临“什么都懂、很多都不说”的困境。
ALE 的结果表明,当前最强 Agent 在真实工作场景中仍远未达到人类水平,且成本差异显著。Fable 5 的高性能伴随高成本和高拒绝率,其实际可用性受到质疑。
相关资讯
6月13日 · 综合整理
6月13日 · 综合整理
5月27日 · Anthropic Research
6月20日 · Anthropic Blog
5月25日 · Anthropic
5月6日 · Anthropic
延伸阅读 · 相关教程
How Anthropic implemented Constitutional AI for Claude
AI coding environment comparison — comparing developer tools across anthropic and openai
Analyzing images and documents with Claude 3 Vision
Benchmarks, pricing, and real-world use cases to help you choose the right LLM