
摘要
大型语言模型(LLMs)的指令遵循能力催生了一类基于LLM的系统,能够处理如大规模代码仓库编辑等复杂任务。然而,由于LLM对提示(prompting)变化表现出高度敏感且难以预测的行为,亟需构建稳健的评估工具以推动此类系统的持续迭代。为此,我们提出了RES-Q——一个基于自然语言指令的基准测试框架,用于评估Repository Editing Systems(代码仓库编辑系统)。RES-Q包含100个由真实GitHub提交记录手工构建的仓库编辑任务。给定一条编辑指令与一个代码仓库,RES-Q评估LLM系统在理解指令、导航仓库以获取相关信息,并生成符合指定要求的正确编辑方案等方面的综合能力。我们认为,这种评估方式能够有效克服传统基准测试的局限性,提供对模型能力更为全面和深入的衡量。我们在Qurrent OS——我们开发的语言智能体(language agent)开发平台之上构建了仓库编辑系统,并在此框架下评估了多种前沿LLM作为语言智能体的表现。尽管这些模型在HumanEval基准上的pass@1性能差异仅为1%,但我们发现Claude Sonnet 3.5在RES-Q上的表现比GPT-4o高出12% pass@1,这表明RES-Q具备在传统基准趋于饱和的背景下,有效区分不同模型能力的潜力。此外,我们进一步探讨了模型的token使用效率、与现有基准之间的性能关联性,以及闭源与开源LLM之间存在的显著差异。相关代码与数据集已公开,可通过 https://github.com/Qurrent-AI/RES-Q 获取。
代码仓库
qurrent-ai/res-q
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| code-generation-on-res-q | QurrentOS-coder + Gemini 1.5 Pro | pass@1: 30.0 |
| code-generation-on-res-q | QurrentOS-coder + Claude 3.5 Sonnet | pass@1: 58.0 |
| code-generation-on-res-q | QurrentOS-coder + Llama 3 70b | pass@1: 20.0 |
| code-generation-on-res-q | QurrentOS-coder + Qwen-72B-Instruct | pass@1: 18.0 |
| code-generation-on-res-q | QurrentOS-coder + GPT-4 | pass@1: 30.0 |
| code-generation-on-res-q | QurrentOS-coder + Claude 3 Opus | pass@1: 36.0 |
| code-generation-on-res-q | QurrentOS-coder + GPT-4o | pass@1: 46.0 |
| code-generation-on-res-q | QurrentOS-coder + DeepSeek-Coder-V2 | pass@1: 29.0 |
| code-generation-on-res-q | QurrentOS-coder + GPT-4 Turbo | pass@1: 37.0 |