Microsoft研究表明，AI模型仍然很难调试软件。

2025年04月11日 09:04发布

3849阅读

来自OpenAI，Anthropic和其他顶级AI实验室的AI模型越来越多地用于协助编程任务。 Google首席执行官Sundar Pichai在10月表示，该公司的25％的新代码是由AI生成的，Meta首席执行官Mark Zuckerberg表示有雄心勃勃地在社交媒体巨头中广泛部署AI编码模型。

，即使是当今最好的模型也很难解决不会绊倒经验丰富的开发人员的软件错误。

Microsoft R＆D部门Microsoft Research的一项新研究表明，包括Anthropic的Claude 3.7十四行诗和Openai的O3-Mini在内的模型未能在称为Swe-Bench Lite的软件开发基准中调试许多问题。结果令人醒目地提醒，尽管Openai等公司的大胆声明，AI仍然与编码等领域的人类专家保持不符。

该研究的合着者测试了九种不同的模型作为A＆＃8的骨干220;单个提示的代理商”，可以访问许多调试工具，包括Python调试器。他们命令该代理商求解Swe-Bench Lite的300个策划的300个软件调试任务。

根据合着者的说法，即使配备了更强大，更新的模型，他们的经纪人很少成功完成一半以上的调试任务。 Claude 3.7十四行诗的平均成功率最高（48.4％），其次是Openai的O1（30.2％）和O3-Mini（22.1％）。

研究的图表。 “相对增加”是指增强模型从配备调试工具中获得的。图片信用：Microsoft

为什么表现不佳？一些模型努力使用可用的调试工具，并了解不同工具如何帮助解决不同问题。据合着者称，更大的问题是数据稀缺。他们推测没有足够代表＆＃822的数据0;顺序决策过程”（即人类调试痕迹）在当前模型的培训数据中。

“我们坚信培训或微调[模型]可以使他们更好地互动式访问者，”合着者在他们的研究中写道。 “但是，这将需要专门的数据来实现此类模型培训，例如，记录代理与调试器进行交互的轨迹数据，以收集必要的信息，然后再提出错误修复。”

这些发现并不令人震惊。许多研究表明，由于理解编程逻辑的能力等领域的弱点，代码生成的AI倾向于引入安全漏洞和错误。对流行的AI编码工具Devin的最新评估发现，它只能完成20个编程测试中的3个。

但是，微软的工作是模型持续问题领域的更详细的外观之一。可能对AI驱动的辅助编码工具的投资者不会衰减，但是幸运的是，它会使开发人员及其更高的速度三思而后行。

就其价值而言，越来越多的科技领导者对AI自动化编码工作的观念提出了异议。微软联合创始人比尔·盖茨（Bill Gates）表示，他认为编程是一项职业。 OKTA首席执行官托德·麦金农（Todd McKinnon）和IBM首席执行官Arvind Krishna的首席执行官Amjad Masad也是如此。