
摘要
提高搜索引擎检索效果的一种方法是通过扩展文档中与内容相关或具有代表性的术语来增强其表现。从问答系统的角度来看,这可能包括文档可以潜在回答的问题。基于这一观察,我们提出了一种简单的方法,该方法利用一个普通的序列到序列模型(vanilla sequence-to-sequence model),通过预测给定文档可能收到的查询并将其扩展为这些预测查询来实现。该模型使用包含查询和相关文档对的数据集进行训练。通过将我们的方法与高效的重排序组件相结合,我们在两个检索任务中达到了当前的最佳水平(state of the art)。在延迟敏感的情况下,仅使用检索结果(不进行重排序)就能接近更复杂的神经网络重排序器的效果,但速度要快得多。
代码仓库
castorini/Anserini
GitHub 中提及
castorini/docTTTTTquery
pytorch
GitHub 中提及
kasys-lab/anserini-kasys
GitHub 中提及
nyu-dl/dl4ir-doc2query
官方
tf
GitHub 中提及
irgroup/clef2023-longeval-irc
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| passage-re-ranking-on-ms-marco | BERT + Doc2query | MRR: 0.368 |
| passage-re-ranking-on-trec-pm | BERT + Doc2query | mAP: 36.5 |