6 个月前

摘要

大型语言模型（LLMs）的指令遵循能力催生了一类基于LLM的系统，能够处理如大规模代码仓库编辑等复杂任务。然而，由于LLM对提示（prompting）变化表现出高度敏感且难以预测的行为，亟需构建稳健的评估工具以推动此类系统的持续迭代。为此，我们提出了RES-Q——一个基于自然语言指令的基准测试框架，用于评估Repository Editing Systems（代码仓库编辑系统）。RES-Q包含100个由真实GitHub提交记录手工构建的仓库编辑任务。给定一条编辑指令与一个代码仓库，RES-Q评估LLM系统在理解指令、导航仓库以获取相关信息，并生成符合指定要求的正确编辑方案等方面的综合能力。我们认为，这种评估方式能够有效克服传统基准测试的局限性，提供对模型能力更为全面和深入的衡量。我们在Qurrent OS——我们开发的语言智能体（language agent）开发平台之上构建了仓库编辑系统，并在此框架下评估了多种前沿LLM作为语言智能体的表现。尽管这些模型在HumanEval基准上的pass@1性能差异仅为1%，但我们发现Claude Sonnet 3.5在RES-Q上的表现比GPT-4o高出12% pass@1，这表明RES-Q具备在传统基准趋于饱和的背景下，有效区分不同模型能力的潜力。此外，我们进一步探讨了模型的token使用效率、与现有基准之间的性能关联性，以及闭源与开源LLM之间存在的显著差异。相关代码与数据集已公开，可通过 https://github.com/Qurrent-AI/RES-Q 获取。

源 PDF