
摘要
开放域问答系统依赖于高效的段落检索来筛选候选上下文,传统上普遍采用稀疏向量空间模型(如TF-IDF或BM25)作为主要方法。在本工作中,我们证明仅使用密集表示(dense representations)即可实现高效的检索,其中嵌入向量通过一个简单的双编码器(dual-encoder)框架,基于少量问题与段落样本进行学习。在多种开放域问答数据集上的评估结果表明,我们的密集检索器在Top-20段落检索准确率方面,相较于强大的Lucene-BM25系统,绝对提升达9%至19%,显著优于传统方法,并推动了端到端问答系统在多个开放域问答基准测试中达到新的最先进水平。
代码仓库
alexlimh/DPR_MUF
pytorch
GitHub 中提及
oriram/spider
pytorch
GitHub 中提及
DevSinghSachan/unsupervised-passage-reranking
pytorch
GitHub 中提及
efficientqa/retrieval-based-baselines
tf
GitHub 中提及
openmatch/ance-tele
jax
GitHub 中提及
Ankur3107/dpr-tf
tf
GitHub 中提及
hongyuntw/DPR
pytorch
GitHub 中提及
luyug/GC-DPR
pytorch
GitHub 中提及
huggingface/transformers
pytorch
GitHub 中提及
deepset-ai/haystack
pytorch
GitHub 中提及
facebookresearch/DPR
官方
pytorch
GitHub 中提及
AhmedHussKhalifa/Dense_Passage_Retrieval_in_Conversational_Search
pytorch
GitHub 中提及
hongyuntw/DPR_BESS
pytorch
GitHub 中提及
junnyu/dpr_paddle
paddle
GitHub 中提及
Hannibal046/nanoDPR
pytorch
GitHub 中提及
AkariAsai/XORQA
pytorch
GitHub 中提及
amzn/refuel-open-domain-qa
pytorch
GitHub 中提及
nidhikamal-emb/DPR_repo
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| passage-retrieval-on-natural-questions | DPR | Precision@100: 86 Precision@20: 79.4 |
| question-answering-on-natural-questions | DPR | EM: 41.5 |
| question-answering-on-naturalqa | DPR | EM: 41.5 |
| question-answering-on-triviaqa | DPR | EM: 56.8 |
| question-answering-on-webquestions | DPR | EM: 42.4 |