返回资讯列表
模型

Claude 4 刷新 Agent 基准:SWE-bench 突破 72%,超越人类初级程序员

Anthropic 发布 Claude 4,在软件工程基准 SWE-bench Verified 上得分达到 72.5%,首次明显超越人类初级工程师的平均表现(约 60%)。Claude 4 引入「扩展思考(Extended Thinking)」模式,允许模型在给出最终答案前进行长达数分钟的内部推理,在需要多步骤规划的 Agent 任务上尤为突出。Cursor、Windsurf 等 AI IDE 已宣布优先接入 Claude 4 作为默认 Agent 引擎。

2025年5月6日来源:Anthropic

阅读原文

本条资讯来源于 Anthropic,点击查看完整报道。

前往 Anthropic