
摘要
使用自然语言查询进行视频检索,需要学习文本与音视频输入之间的语义上有意义的联合嵌入表示。通常,这类联合嵌入是通过成对(或三元组)对比损失目标来学习的,但这类方法在训练过程中难以充分关注“难以检索”的样本。这一问题在数据稀缺场景下尤为突出——当数据量相对较小(仅为大规模 MSR-VTT 数据集的 10%)时,难以充分覆盖复杂的音视频嵌入空间。在此背景下,我们提出了 Rudder:一个支持多语言的视频-文本检索数据集,包含马拉地语、印地语、泰米尔语、卡纳达语、马拉雅拉姆语和泰卢固语的音频与文本字幕。为进一步缓解数据稀缺问题,我们提出利用领域知识增强监督信号。为此,除了传统的三元组结构(锚点、正样本、负样本)外,我们引入第四个组成部分——“部分样本”(partial),构建一种基于偏序关系的差异化边界损失(differential margin based partial-order loss)。这些“部分样本”通过启发式方式采样,其语义上位于正样本与负样本的重叠区域,从而实现更广泛的嵌入空间覆盖。实验结果表明,我们的方法在多个指标上持续优于传统的最大边界损失(max-margin)和三元组损失,并在 MSR-VTT 与 DiDeMO 数据集上显著提升了当前最优性能。我们在 Rudder 数据集上建立了基准测试结果,同时观察到所提出的偏序损失在跨语言对齐的加持下,尤其在联合训练各语言特定检索模型时,带来了显著的性能提升。
代码仓库
nshubham655/RUDDER
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-retrieval-on-charades-sta | PO Loss | text-to-video Mean Rank: 162.3 text-to-video Median Rank: 77 text-to-video R@1: 3.6 text-to-video R@10: 15.9 video-to-text Mean Rank: 164.6 video-to-text Median Rank: 83 video-to-text R@1: 3.2 video-to-text R@10: 14.9 |
| video-retrieval-on-didemo | PO Loss | text-to-video Mean Rank: 40.2 text-to-video Median Rank: 8 text-to-video R@1: 16.3 text-to-video R@10: 56.5 video-to-text Mean Rank: 39.6 video-to-text Median Rank: 8 video-to-text R@1: 15 video-to-text R@10: 54.9 |
| video-retrieval-on-rudder | PO Loss | text-to-video Mean Rank: 66 text-to-video Median Rank: 153.14 text-to-video R@1: 4.48 text-to-video R@10: 20.02 text-to-video R@5: 13.47 text-to-video R@50: 42.49 video-to-text Mean Rank: 73 video-to-text Median Rank: 151.63 video-to-text R@1: 3.87 video-to-text R@10: 19.09 video-to-text R@5: 12.13 |