摘要

开放域问答系统依赖于高效的段落检索来筛选候选上下文，传统上普遍采用稀疏向量空间模型（如TF-IDF或BM25）作为主要方法。在本工作中，我们证明仅使用密集表示（dense representations）即可实现高效的检索，其中嵌入向量通过一个简单的双编码器（dual-encoder）框架，基于少量问题与段落样本进行学习。在多种开放域问答数据集上的评估结果表明，我们的密集检索器在Top-20段落检索准确率方面，相较于强大的Lucene-BM25系统，绝对提升达9%至19%，显著优于传统方法，并推动了端到端问答系统在多个开放域问答基准测试中达到新的最先进水平。

源 PDF

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

Vladimir Karpukhin Barlas Oğuz Sewon Min Patrick Lewis Ledell Wu Sergey Edunov Danqi Chen Wen-tau Yih

摘要

开放域问答系统依赖于高效的段落检索来筛选候选上下文，传统上普遍采用稀疏向量空间模型（如TF-IDF或BM25）作为主要方法。在本工作中，我们证明仅使用密集表示（dense representations）即可实现高效的检索，其中嵌入向量通过一个简单的双编码器（dual-encoder）框架，基于少量问题与段落样本进行学习。在多种开放域问答数据集上的评估结果表明，我们的密集检索器在Top-20段落检索准确率方面，相较于强大的Lucene-BM25系统，绝对提升达9%至19%，显著优于传统方法，并推动了端到端问答系统在多个开放域问答基准测试中达到新的最先进水平。

源 PDF

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

Command Palette

开放域问答中的密集段落检索

Vladimir Karpukhin Barlas Oğuz Sewon Min Patrick Lewis Ledell Wu Sergey Edunov Danqi Chen Wen-tau Yih

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

开放域问答中的密集段落检索

Vladimir Karpukhin Barlas Oğuz Sewon Min Patrick Lewis Ledell Wu Sergey Edunov Danqi Chen Wen-tau Yih

摘要

用 AI 构建 AI

HyperAI Newsletters

Command Palette

开放域问答中的密集段落检索

Vladimir Karpukhin Barlas Oğuz Sewon Min Patrick Lewis Ledell Wu Sergey Edunov Danqi Chen Wen-tau Yih

摘要

用 AI 构建 AI

HyperAI Newsletters