
摘要
在近期将BERT应用于问答任务取得成功之后,我们探索了其在临时文档检索中的简单应用。这一过程需要应对文档通常比BERT设计时所考虑的输入长度更长所带来的挑战。为了解决这个问题,我们对每个句子单独进行推理,然后汇总句子得分以生成文档得分。在TREC微博和新闻专线测试集上的实验表明,我们的方法虽然简单但非常有效,据我们所知,在这些数据集上通过神经网络方法获得的最高平均精度就是由我们的方法实现的。
代码仓库
castorini/birch
pytorch
GitHub 中提及
kasys-lab/anserini-kasys
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| ad-hoc-information-retrieval-on-trec-robust04 | BERT FT(Microblog) | MAP: 0.3278 P@20: 0.4287 |