4 个月前

CoIR:代码信息检索模型的综合基准测试

CoIR:代码信息检索模型的综合基准测试

摘要

尽管信息检索(IR)在各种自然语言处理(NLP)任务中取得了显著成功,大多数IR系统主要处理自然语言的查询和语料库,而忽视了代码检索领域。代码检索至关重要,但目前的研究仍相对不足,现有的方法和基准测试未能充分反映不同领域和任务中代码的多样性。为填补这一空白,我们推出了COIR(代码信息检索基准),这是一个专门设计用于评估代码检索能力的稳健且全面的基准测试工具。COIR包含十个精心策划的代码数据集,涵盖了七个不同领域的八个独特检索任务。首先,我们将讨论COIR的构建及其多样化的数据集组成。随后,我们使用COIR对九个广泛使用的检索模型进行了评估,发现即使是最先进的系统在执行代码检索任务时也存在显著困难。为了便于现有研究工作流程中的采用和集成,COIR被开发为一个用户友好的Python框架,并可通过pip轻松安装。它与其他流行基准测试工具如MTEB和BEIR共享相同的数据模式,从而实现无缝的跨基准测试评估。通过COIR,我们旨在激发代码检索领域的研究热情,提供一个多功能的基准测试工具,鼓励进一步开发和探索代码检索系统。https://github.com/CoIR-team/coir.

代码仓库

coir-team/coir
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
code-search-onVoyage-code-002
nDCG@10: 56.26
code-search-on-coirVoyage-code-002
nDCG@10: 56.26

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
CoIR:代码信息检索模型的综合基准测试 | 论文 | HyperAI超神经