模型
Claude 4 刷新 Agent 基准:SWE-bench 突破 72%,超越人类初级程序员
Anthropic 发布 Claude 4,在软件工程基准 SWE-bench Verified 上得分达到 72.5%,首次明显超越人类初级工程师的平均表现(约 60%)。Claude 4 引入「扩展思考(Extended Thinking)」模式,允许模型在给出最终答案前进行长达数分钟的内部推理,在需要多步骤规划的 Agent 任务上尤为突出。Cursor、Windsurf 等 AI IDE 已宣布优先接入 Claude 4 作为默认 Agent 引擎。
2025年5月6日来源:Anthropic
相关资讯
Claude 3.5 Sonnet 登顶 SWE-bench,成为最强编程 AI
6月20日 · Anthropic Blog
Anthropic 发布 Claude Opus 4.1:成本降 50%,推理性能达顶级水准
5月10日 · Anthropic
Claude 4 Opus 深度分析:Anthropic 如何回应 GPT-5 的挑战
5月19日 · AI Skill Navigation
Claude 4 全系发布深度解析:Opus 4、Sonnet 4 能力边界与使用指南
5月13日 · AI Skill Nav
SWE-bench 2026 年度排名:AI 编程 Agent 能力已达初级工程师水平
5月27日 · SWE-bench
AI编程Agent突破SWE-bench 70%:软件工程正式进入半自动化时代
8月17日 · SWE-bench