Gautier IzacardMathilde CaronLucas HosseiniSebastian RiedelPiotr BojanowskiArmand JoulinEdouard Grave

摘要
近年来,信息检索领域涌现出基于神经网络的稠密检索器(dense retrievers),作为传统基于词频(term-frequency)的稀疏方法的一种替代方案。这类模型在训练数据充足的大规模数据集和任务上已取得当前最优性能。然而,当应用于缺乏训练数据的新场景时,其泛化能力较差,往往被无需标注数据的词频方法(如BM25)所超越。在本研究中,我们探索了对比学习(contrastive learning)在训练无监督稠密检索器方面的潜力,结果表明该方法在多种检索场景下均能实现优异性能。在BEIR基准测试中,我们的无监督模型在15个数据集中的11个上,于Recall@100指标上超越了BM25。当作为预训练模型,在少量领域内样本或大规模MS MARCO数据集上进行微调后,该对比学习模型在BEIR基准上仍能带来显著性能提升。此外,我们进一步评估了该方法在多语言检索中的表现,考虑到多语言场景下的训练数据比英语更加稀缺,结果表明我们的方法依然能够实现强劲的无监督性能。值得注意的是,仅在监督英文数据上进行微调后,该模型在低资源语言(如斯瓦希里语)上仍展现出强大的跨语言迁移能力。我们还证明,所提出的无监督模型能够实现不同书写系统之间的跨语言检索,例如使用阿拉伯文查询检索英文文档,这正是传统基于词匹配的方法难以实现的。
代码仓库
xfactlab/emnlp2023-damaging-retrieval
pytorch
GitHub 中提及
DevSinghSachan/unsupervised-passage-reranking
pytorch
GitHub 中提及
nthakur20/income
pytorch
GitHub 中提及
soldni/pyterrier_sentence_transformers
pytorch
GitHub 中提及
facebookresearch/contriever
官方
pytorch
GitHub 中提及
thakur-nandan/income
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| passage-retrieval-on-peerqa | Contriever | MRR: 0.3624 Recall@10: 0.5567 |
| passage-retrieval-on-peerqa | Contriever-MS | MRR: 0.4408 Recall@10: 0.6314 |