
摘要
大型语言模型(LLMs)在代码生成与问题求解方面取得了显著进展。当前的方法通常采用基于外部工具的迭代式调试器,通过编译器或其他工具提供的运行时反馈,对各类方法生成的粗略代码进行逐步优化。然而,这些方法的有效性在很大程度上依赖于初始代码生成的质量,而这一问题仍是亟待解决的开放性挑战。本文提出了一种名为 CodeSim 的新型多智能体代码生成框架,该框架通过类人类感知的方式,全面覆盖程序合成与规划、编码以及调试的全流程。受人类通过可视化仿真验证对算法理解的启发,CodeSim 创新性地引入了基于输入/输出逐步仿真来实现计划验证与内部调试的方法。在七个具有挑战性的竞赛级问题求解与程序合成基准测试中进行的大量实验表明,CodeSim 展现出卓越的代码生成能力。本框架在多项关键指标上取得了新的最先进(SOTA)性能:HumanEval 达到 95.1%(pass@1),MBPP 达到 90.7%,APPS 达到 22%,CodeContests 达到 29.1%。此外,当与外部调试器级联使用时,该方法还展现出进一步提升的巨大潜力。为推动该领域的后续研究与开发,我们已将 CodeSim 框架开源,相关项目主页见:https://kagnlp.github.io/codesim.github.io/。
代码仓库
kagnlp/CodeGenerator
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| code-generation-on-apps | CodeSim (GPT4) | Competition Pass@1: 0.81 Interview Pass@1: 4.21 Introductory Pass@1: 26.04 |
| code-generation-on-codecontests | CodeSim (GPT4) | Test Set pass@1: 29.1 |
| code-generation-on-humaneval | CodeSim (GPT-4o and LDB Debugger ) | Pass@1: 97.6 |
| code-generation-on-humaneval | CodeSim (o3-mini) | Pass@1: 98.8 |
| code-generation-on-humaneval | CodeSim (GPT-4o) | Pass@1: 95.1 |
| code-generation-on-mbpp | CodeSim (GPT4o) | Accuracy: 90.7 |