3 个月前

RocketQA:一种面向开放域问答的密集段落检索优化训练方法

RocketQA:一种面向开放域问答的密集段落检索优化训练方法

摘要

在开放域问答任务中,密集段落检索(dense passage retrieval)已成为一种新兴范式,用于检索与问题相关的段落以定位答案。通常,双编码器(dual-encoder)架构被采用,以学习问题与段落的密集向量表示,实现语义匹配。然而,由于训练与推理阶段之间的差异、未标注正样本的存在以及训练数据有限等挑战,双编码器模型的训练极具难度。为应对这些挑战,本文提出一种优化的训练方法——RocketQA,以提升密集段落检索的性能。RocketQA在技术上做出三项主要贡献:跨批量负样本(cross-batch negatives)、去噪硬负样本(denoised hard negatives)以及数据增强(data augmentation)。实验结果表明,RocketQA在MSMARCO和Natural Questions两个基准数据集上均显著超越此前的最先进模型。我们还通过大量实验验证了上述三种策略在RocketQA中的有效性。此外,我们进一步证明,基于所提出的RocketQA检索器,端到端问答系统的性能也可得到显著提升。

代码仓库

paddlepaddle/rocketqa
官方
paddle
GitHub 中提及

基准测试

基准方法指标
passage-retrieval-on-natural-questionsRocketQA
Precision@100: 88.5
Precision@20: 82.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
RocketQA:一种面向开放域问答的密集段落检索优化训练方法 | 论文 | HyperAI超神经