模型

Claude 4 刷新 Agent 基准：SWE-bench 突破 72%，超越人类初级程序员

Anthropic 发布 Claude 4，在软件工程基准 SWE-bench Verified 上得分达到 72.5%，首次明显超越人类初级工程师的平均表现（约 60%）。Claude 4 引入「扩展思考（Extended Thinking）」模式，允许模型在给出最终答案前进行长达数分钟的内部推理，在需要多步骤规划的 Agent 任务上尤为突出。Cursor、Windsurf 等 AI IDE 已宣布优先接入 Claude 4 作为默认 Agent 引擎。

2025年5月6日来源：Anthropic

Claude 4 Anthropic SWE-bench Agent基准编程AI

阅读原文

本条资讯来源于 Anthropic，点击查看完整报道。

前往 Anthropic

Claude 4 刷新 Agent 基准：SWE-bench 突破 72%，超越人类初级程序员

Documentation

Getting Started

Learn more