3 个月前

领域匹配的预训练任务用于密集检索

领域匹配的预训练任务用于密集检索

摘要

在更大规模数据集上进行预训练,并伴随模型规模持续扩大,如今已成为几乎所有自然语言处理(NLP)任务中提升性能的可靠方法。然而,信息检索(Information Retrieval)领域是一个显著的例外——迄今为止,额外的预训练并未能产生令人信服的成效。本文表明,只要采用合适的预训练方案,这一瓶颈是可以被突破的。我们通过在以下两个数据集上对大规模双编码器(bi-encoder)模型进行预训练,验证了这一观点:1)一个 recently released 的包含6500万条合成生成问题的数据集;2)由 pushshift.io 提供的 Reddit 对话数据集中提取的2亿条帖子-评论配对。我们在一系列信息检索与对话检索基准测试上进行了评估,结果表明,所提出的方法显著优于现有的监督学习基线模型。

代码仓库

facebookresearch/dpr-scale
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
passage-retrieval-on-natural-questionsDPR-PAQ
Precision@100: 89.22
Precision@20: 84.68

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
领域匹配的预训练任务用于密集检索 | 论文 | HyperAI超神经