4 个月前

PARADE:文档重排序中的段落表示聚合

PARADE:文档重排序中的段落表示聚合

摘要

预训练的变压器模型(如BERT和T5)在临时文档和段落排序方面表现出色。由于这些模型固有的序列长度限制,它们需要对文档中的各个段落进行处理,而不是一次性处理整个文档序列。尽管已经提出了几种聚合段落级信号的方法,但尚未对这些技术进行全面比较。在这项工作中,我们探讨了将文档中各段落的相关性信号聚合为最终排名分数的策略。研究发现,段落表示聚合技术可以显著优于先前提出的技术,例如取最大段落得分。我们将这种新方法称为PARADE(Passage Representation Aggregation for Document Ensemble)。特别是,在信息需求广泛且相关性信号可能分散在整个文档中的集合上(如TREC Robust04和GOV2),PARADE可以显著提高结果。而在信息需求通常可以定位到单个段落的集合上(如TREC DL和TREC Genomics),较为简单的聚合技术可能表现更好。此外,我们还进行了效率分析,并强调了几种改进基于变压器的聚合策略的方法。

代码仓库

canjiali/PARADE
官方
tf
GitHub 中提及

基准测试

基准方法指标
ad-hoc-information-retrieval-on-trec-robust04PARADE(ELECTRA)
P@20: 0.4604
nDCG@20: 0.5399
ad-hoc-information-retrieval-on-trec-robust04PARADE(BERT)
P@20: 0.4486
nDCG@20: 0.5252

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
PARADE:文档重排序中的段落表示聚合 | 论文 | HyperAI超神经