4 个月前

基于查询预测的文档扩展

基于查询预测的文档扩展

摘要

提高搜索引擎检索效果的一种方法是通过扩展文档中与内容相关或具有代表性的术语来增强其表现。从问答系统的角度来看,这可能包括文档可以潜在回答的问题。基于这一观察,我们提出了一种简单的方法,该方法利用一个普通的序列到序列模型(vanilla sequence-to-sequence model),通过预测给定文档可能收到的查询并将其扩展为这些预测查询来实现。该模型使用包含查询和相关文档对的数据集进行训练。通过将我们的方法与高效的重排序组件相结合,我们在两个检索任务中达到了当前的最佳水平(state of the art)。在延迟敏感的情况下,仅使用检索结果(不进行重排序)就能接近更复杂的神经网络重排序器的效果,但速度要快得多。

代码仓库

castorini/Anserini
GitHub 中提及
castorini/docTTTTTquery
pytorch
GitHub 中提及
kasys-lab/anserini-kasys
GitHub 中提及
nyu-dl/dl4ir-doc2query
官方
tf
GitHub 中提及
irgroup/clef2023-longeval-irc
pytorch
GitHub 中提及

基准测试

基准方法指标
passage-re-ranking-on-ms-marcoBERT + Doc2query
MRR: 0.368
passage-re-ranking-on-trec-pmBERT + Doc2query
mAP: 36.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于查询预测的文档扩展 | 论文 | HyperAI超神经