
摘要
跨模态检索方法通过联合学习一个共同的表示空间来建立视觉和语言模态之间的相似关系。然而,由于数据质量低下(例如损坏的图像、快节奏的视频和不详细的文本)引起的随机不确定性(Aleatoric uncertainty),预测结果往往不可靠。在本文中,我们提出了一种基于原型的随机不确定性量化(Prototype-based Aleatoric Uncertainty Quantification, PAU)框架,通过量化由固有数据模糊性引起的风险,提供可信的预测。具体而言,我们首先为每个模态构建一组不同的可学习原型,以表示整个语义子空间。然后利用德姆斯特-谢弗理论(Dempster-Shafer Theory)和主观逻辑理论(Subjective Logic Theory),通过将证据与狄利克雷分布参数关联起来,建立了一个证据理论框架。PAU模型能够诱导出精确的不确定性估计并生成可靠的跨模态检索预测。我们在MSR-VTT、MSVD、DiDeMo和MS-COCO这四个主要基准数据集上进行了广泛的实验,证明了我们方法的有效性。代码可在https://github.com/leolee99/PAU 获取。
代码仓库
leolee99/pau
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-retrieval-on-didemo | PAU | text-to-video Mean Rank: 12.9 text-to-video Median Rank: 2.0 text-to-video R@1: 48.6 text-to-video R@10: 84.5 text-to-video R@5: 76.0 video-to-text Mean Rank: 9.8 video-to-text Median Rank: 2.0 video-to-text R@1: 48.1 video-to-text R@10: 85.7 video-to-text R@5: 74.2 |
| video-retrieval-on-msr-vtt-1ka | PAU | text-to-video Mean Rank: 14.0 text-to-video Median Rank: 2.0 text-to-video R@1: 48.5 text-to-video R@10: 82.5 text-to-video R@5: 72.7 video-to-text Mean Rank: 9.7 video-to-text Median Rank: 2.0 video-to-text R@1: 48.3 video-to-text R@10: 83.2 video-to-text R@5: 73.0 |
| video-retrieval-on-msvd | PAU | text-to-video Mean Rank: 9.6 text-to-video Median Rank: 2.0 text-to-video R@1: 47.3 text-to-video R@10: 85.5 text-to-video R@5: 77.4 video-to-text Mean Rank: 2.4 video-to-text Median Rank: 1.0 video-to-text R@1: 68.9 video-to-text R@10: 97.1 video-to-text R@5: 93.1 |