3 个月前

BEIR:面向信息检索模型零样本评估的异构基准

BEIR:面向信息检索模型零样本评估的异构基准

摘要

现有的神经信息检索(IR)模型通常在同质且狭窄的设置下进行研究,这在很大程度上限制了对其分布外(OOD)泛化能力的深入理解。为解决这一问题,并帮助研究人员更广泛地评估其模型的有效性,我们提出了 Benchmarking-IR(BEIR),一个稳健且异构的信息检索评估基准。BEIR 通过精心选取来自多种文本检索任务与领域的 18 个公开数据集,对 10 种先进的检索系统进行了全面评估,涵盖词法检索、稀疏表示、稠密表示、晚期交互以及重排序等多种架构。实验结果表明,BM25 作为一种稳健的基线方法表现优异;而基于重排序与晚期交互的模型在零样本(zero-shot)场景下平均表现最佳,但其计算开销较高。相比之下,稠密检索与稀疏检索模型在计算效率方面更具优势,但通常在性能上落后于其他方法,凸显了其泛化能力仍有显著提升空间。我们期望该框架能够促进对现有检索系统的更深入评估与理解,并推动未来构建更具鲁棒性与泛化能力的信息检索系统的发展。BEIR 已开源,访问地址为:https://github.com/UKPLab/beir。

代码仓库

beir-cellar/beir
pytorch
GitHub 中提及
UKPLab/beir
官方
tf
GitHub 中提及
osu-nlp-group/hipporag
GitHub 中提及

基准测试

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
BEIR:面向信息检索模型零样本评估的异构基准 | 论文 | HyperAI超神经