EN
返回资讯列表
模型

Anthropic 发布 Claude Sonnet 5:性能接近 Opus 4.8,价格更低,主打 Agent 能力

Anthropic 于近日正式发布 Claude Sonnet 5,定位为“迄今为止最具 Agent 属性的 Sonnet 模型”。该模型在推理、编码、工具使用和知识工作方面相比前代 Sonnet 4.6 显著提升,多项基准测试成绩接近旗舰级 Opus 4.8,但 API 价格仅为 Opus 4.8 的 60%(发布初期优惠价更低)。Sonnet 5 已全平台上线,成为 Claude Free、Pro、Max、Team、Enterprise 用户的默认模型,并支持 1M token 上下文窗口。

性能表现

Sonnet 5 在多个关键基准上超越 Sonnet 4.6,逼近 Opus 4.8:

  • Agentic Coding (SWE-bench Pro):Sonnet 5 得分 63.2%,高于 Sonnet 4.6 的 58.1%,低于 Opus 4.8 的 69.2%。
  • 多学科推理 (Humanity's Last Exam):无工具时 Sonnet 5 为 43.2%(Sonnet 4.6 为 34.6%,Opus 4.8 为 49.8%);使用工具后提升至 57.4%,接近 Opus 4.8。
  • 计算机使用 (OSWorld-Verified):Sonnet 5 得分 81.2%,Sonnet 4.6 为 78.5%,Opus 4.8 为 83.4%。
  • Agentic Search (BrowseComp):在 high/xhigh/max 档位,Sonnet 5 表现接近 Opus 4.8。
  • CursorBench 3.1:Sonnet 5 得分 57%,Sonnet 4.6 为 49%,接近 Opus 4.8 high 档。

第三方榜单 Artificial Analysis Intelligence 显示,Sonnet 5 max 得分 53,与 GPT-5.5 high 同档,低于 Opus 4.8 high 和 GPT-5.5 xhigh。

定价与成本

Sonnet 5 标准定价为每百万输入 token 3 美元、输出 15 美元;2026 年 8 月 31 日前优惠价为输入 2 美元、输出 10 美元,约为 Opus 4.8(输入 5 美元、输出 25 美元)的 40%。

实际使用成本因任务而异。例如,在构建单一 HTML 登录页面的对比测试中:

  • Sonnet 5:20.9k 输入 token,14.2k 输出 token,总成本 3.36 美元,耗时 2 分 11 秒。
  • Opus 4.8:96.3k 输入 token,73.8k 输出 token,总成本 20.66 美元,耗时 20 分 15 秒。

但按 Cost per Intelligence Index Task 计算,Sonnet 5 max 单任务成本为 2.29 美元,高于 Opus 4.8 max 的 1.80 美元,说明实际成本受输出量、推理量等因素影响。

新特性与注意事项

  • 自适应思考 (Adaptive Thinking):取代扩展思考模式,默认中等 effort,可根据任务自动调整。
  • Tokenizer 更新:相同文本会映射为更多 token(增幅约 1.0-1.35 倍),Anthropic 表示优惠价旨在使迁移成本大致持平。
  • 速率限制上调:为适配更高 effort 模式带来的 token 消耗,Anthropic 上调了 Chat、Cowork、Claude Code 及平台的速率限制。
  • 安全评估:Sonnet 5 在拒绝恶意请求、抵御提示注入、幻觉率和谄媚倾向方面优于 Sonnet 4.6,但失当行为率略高于 Opus 4.8 和 Mythos Preview。

可用性

Sonnet 5 已全平台上线,包括 Claude 原生平台、AWS、Google Cloud、Microsoft Foundry 等。Claude Free 和 Pro 用户默认模型自动切换至 Sonnet 5,Max、Team、Enterprise 用户也可使用。开发者可通过 Claude Code 和 Claude Platform API 调用。

业界反馈

早期访问合作伙伴反馈一致:Sonnet 5 比前代更具自主 Agent 能力,能完成复杂任务,且价格具有吸引力。Cursor 已宣布支持 Sonnet 5。

总结

Sonnet 5 的发布标志着 Agent 能力从旗舰级模型向中端模型的迁移。对于成本敏感且需要稳定执行多步任务的团队,Sonnet 5 成为新的默认选项;而高准确率要求的任务,Opus 4.8 仍是首选。

2026年7月1日来源:综合整理

延伸阅读

想深入了解该主题,查看站内相关教程与解析。

查看相关主题