3 个月前

RES-Q:在仓库规模下评估代码编辑大型语言模型系统

RES-Q:在仓库规模下评估代码编辑大型语言模型系统

摘要

大型语言模型(LLMs)的指令遵循能力催生了一类基于LLM的系统,能够处理如大规模代码仓库编辑等复杂任务。然而,由于LLM对提示(prompting)变化表现出高度敏感且难以预测的行为,亟需构建稳健的评估工具以推动此类系统的持续迭代。为此,我们提出了RES-Q——一个基于自然语言指令的基准测试框架,用于评估Repository Editing Systems(代码仓库编辑系统)。RES-Q包含100个由真实GitHub提交记录手工构建的仓库编辑任务。给定一条编辑指令与一个代码仓库,RES-Q评估LLM系统在理解指令、导航仓库以获取相关信息,并生成符合指定要求的正确编辑方案等方面的综合能力。我们认为,这种评估方式能够有效克服传统基准测试的局限性,提供对模型能力更为全面和深入的衡量。我们在Qurrent OS——我们开发的语言智能体(language agent)开发平台之上构建了仓库编辑系统,并在此框架下评估了多种前沿LLM作为语言智能体的表现。尽管这些模型在HumanEval基准上的pass@1性能差异仅为1%,但我们发现Claude Sonnet 3.5在RES-Q上的表现比GPT-4o高出12% pass@1,这表明RES-Q具备在传统基准趋于饱和的背景下,有效区分不同模型能力的潜力。此外,我们进一步探讨了模型的token使用效率、与现有基准之间的性能关联性,以及闭源与开源LLM之间存在的显著差异。相关代码与数据集已公开,可通过 https://github.com/Qurrent-AI/RES-Q 获取。

代码仓库

qurrent-ai/res-q
官方
GitHub 中提及

基准测试

基准方法指标
code-generation-on-res-qQurrentOS-coder + Gemini 1.5 Pro
pass@1: 30.0
code-generation-on-res-qQurrentOS-coder + Claude 3.5 Sonnet
pass@1: 58.0
code-generation-on-res-qQurrentOS-coder + Llama 3 70b
pass@1: 20.0
code-generation-on-res-qQurrentOS-coder + Qwen-72B-Instruct
pass@1: 18.0
code-generation-on-res-qQurrentOS-coder + GPT-4
pass@1: 30.0
code-generation-on-res-qQurrentOS-coder + Claude 3 Opus
pass@1: 36.0
code-generation-on-res-qQurrentOS-coder + GPT-4o
pass@1: 46.0
code-generation-on-res-qQurrentOS-coder + DeepSeek-Coder-V2
pass@1: 29.0
code-generation-on-res-qQurrentOS-coder + GPT-4 Turbo
pass@1: 37.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
RES-Q:在仓库规模下评估代码编辑大型语言模型系统 | 论文 | HyperAI超神经