返回资讯列表
research重点

AI编程Agent突破SWE-bench 70%:软件工程正式进入半自动化时代

多家公司在SWE-bench Verified(真实GitHub issue修复)基准上取得重大突破:Claude 3.7 Sonnet达到62.3%,Devin 2.0达到67.5%,一家初创公司未具名agent达到71.8%。这意味着AI已能可靠完成超过60%的真实软件工程任务,标志着软件工程从"AI辅助"进入"AI主导特定任务"阶段。

2025年8月17日来源:SWE-bench
AI编程SWE-benchAI Agent软件工程Devin

阅读原文

本条资讯来源于 SWE-bench,点击查看完整报道。

前往 SWE-bench