research重点
AI编程Agent突破SWE-bench 70%:软件工程正式进入半自动化时代
多家公司在SWE-bench Verified(真实GitHub issue修复)基准上取得重大突破:Claude 3.7 Sonnet达到62.3%,Devin 2.0达到67.5%,一家初创公司未具名agent达到71.8%。这意味着AI已能可靠完成超过60%的真实软件工程任务,标志着软件工程从"AI辅助"进入"AI主导特定任务"阶段。
2025年8月17日来源:SWE-bench
AI编程SWE-benchAI Agent软件工程Devin