3 个月前

大型双编码器具备通用检索能力

Jianmo Ni Chen Qu Jing Lu Zhuyun Dai Gustavo Hernández Ábrego Ji Ma Vincent Y. Zhao Yi Luan Keith B. Hall Ming-Wei Chang Yinfei Yang

摘要

已有研究表明，基于单一领域训练的双编码器模型在跨领域检索任务中往往难以实现有效泛化。一种普遍观点认为，双编码器的瓶颈层（即最终得分仅为查询向量与文档向量之间的点积）表达能力过于有限，因而难以成为实现跨领域泛化的有效检索模型。本文通过在保持瓶颈层嵌入维度不变的前提下，显著扩大双编码器模型的规模，对这一观点提出挑战。令人惊讶的是，结合多阶段训练策略，模型规模的扩大在多种检索任务上均带来了显著性能提升，尤其在跨领域泛化方面表现突出。实验结果表明，我们提出的基于通用T5的密集检索模型——Generalizable T5-based Retrievers（GTR），在BEIR数据集（BEIR dataset）上的表现显著优于ColBERT~\cite{khattab2020colbert} 以及现有的稀疏与密集检索模型。最令人意外的是，消融实验发现，GTR具有极高的数据效率：仅需10%的MS MARCO监督数据，即可达到最佳的跨领域性能。所有GTR模型均已开源，发布于 https://tfhub.dev/google/collections/gtr/1。

代码仓库

google-research/t5x_retrieval

jax

GitHub 中提及

openmatch/coco-dr

pytorch

GitHub 中提及

基准测试

基准	方法	指标
passage-retrieval-on-peerqa	GTR-XL	MRR: 0.4142 Recall@10: 0.6122

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供