3 个月前

CODESIM:通过仿真驱动的规划与调试实现多智能体代码生成与问题求解

CODESIM:通过仿真驱动的规划与调试实现多智能体代码生成与问题求解

摘要

大型语言模型(LLMs)在代码生成与问题求解方面取得了显著进展。当前的方法通常采用基于外部工具的迭代式调试器,通过编译器或其他工具提供的运行时反馈,对各类方法生成的粗略代码进行逐步优化。然而,这些方法的有效性在很大程度上依赖于初始代码生成的质量,而这一问题仍是亟待解决的开放性挑战。本文提出了一种名为 CodeSim 的新型多智能体代码生成框架,该框架通过类人类感知的方式,全面覆盖程序合成与规划、编码以及调试的全流程。受人类通过可视化仿真验证对算法理解的启发,CodeSim 创新性地引入了基于输入/输出逐步仿真来实现计划验证与内部调试的方法。在七个具有挑战性的竞赛级问题求解与程序合成基准测试中进行的大量实验表明,CodeSim 展现出卓越的代码生成能力。本框架在多项关键指标上取得了新的最先进(SOTA)性能:HumanEval 达到 95.1%(pass@1),MBPP 达到 90.7%,APPS 达到 22%,CodeContests 达到 29.1%。此外,当与外部调试器级联使用时,该方法还展现出进一步提升的巨大潜力。为推动该领域的后续研究与开发,我们已将 CodeSim 框架开源,相关项目主页见:https://kagnlp.github.io/codesim.github.io/。

代码仓库

kagnlp/CodeGenerator
GitHub 中提及

基准测试

基准方法指标
code-generation-on-appsCodeSim (GPT4)
Competition Pass@1: 0.81
Interview Pass@1: 4.21
Introductory Pass@1: 26.04
code-generation-on-codecontestsCodeSim (GPT4)
Test Set pass@1: 29.1
code-generation-on-humanevalCodeSim (GPT-4o and LDB Debugger )
Pass@1: 97.6
code-generation-on-humanevalCodeSim (o3-mini)
Pass@1: 98.8
code-generation-on-humanevalCodeSim (GPT-4o)
Pass@1: 95.1
code-generation-on-mbppCodeSim (GPT4o)
Accuracy: 90.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
CODESIM:通过仿真驱动的规划与调试实现多智能体代码生成与问题求解 | 论文 | HyperAI超神经