3 个月前

基于检索系统的公共与私有数据推理

基于检索系统的公共与私有数据推理

摘要

用户和组织正从各种来源生成日益增长的私有数据。将私有数据纳入系统对于个性化开放域应用(如问答、事实核查和智能助手)至关重要。当前最先进的相关系统在生成答案前,会显式地从背景语料库中检索与用户问题相关的信息。然而,现有的检索系统通常假设语料库完全可访问,而用户往往无法或不愿将其私有数据暴露给托管公共数据的第三方机构。为此,我们首次提出了公共-私有自回归信息检索(PUBLIC-PRIVATE AUTOREGRESSIVE INFORMATION RETRIEVAL, PAIR)隐私框架,以应对多隐私层级下的新型检索场景。随后我们指出,现有文本基准测试无法充分支持PAIR的研究,因为它们均假设信息仅需从单一数据分布中检索。然而,公共数据与私有数据在本质上反映了不同的数据分布,这促使我们构建了ConcurrentQA——首个要求在多个数据分布上同时进行检索的文本问答基准测试。最后,我们发现,当现有系统应用于我们提出的检索场景时,面临显著的隐私与性能之间的权衡问题,并进一步探讨了缓解此类权衡的可行方法。

代码仓库

facebookresearch/concurrentqa
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
multi-hop-question-answering-on-concurrentqaMulti-hop Dense Passage Retriever (MDR)
Answer F1: 56.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于检索系统的公共与私有数据推理 | 论文 | HyperAI超神经