industry-news

AI编程代理在SWE-Bench上突破50%：自主修复Bug的时代到来

多个AI编程系统在SWE-Bench Verified基准测试中突破50%阈值，该基准用于评估自主软件工程能力。Devin（Cognition AI）达到53.8%，Claude with Computer Use达到49%，OpenAI内部系统达到48.9%。SWE-Bench测试自主解决真实GitHub问题的能力——包括阅读代码、理解上下文、实施修复并通过测试。行业分析师指出，这些系统现在能够自主处理真实生产代码库中30-40%的简单Bug修复。多家公司报告称，部署AI编程代理后，开发人员用于修复Bug的时间减少了25-35%。

2025年5月2日来源：SWE-Bench

AI coding SWE-Bench coding agents autonomous coding developer tools

阅读原文

本条资讯来源于 SWE-Bench，点击查看完整报道。

前往 SWE-Bench

AI编程代理在SWE-Bench上突破50%：自主修复Bug的时代到来

Documentation

Getting Started

Learn more