6 个月前

摘要

使用自然语言查询进行视频检索，需要学习文本与音视频输入之间的语义上有意义的联合嵌入表示。通常，这类联合嵌入是通过成对（或三元组）对比损失目标来学习的，但这类方法在训练过程中难以充分关注“难以检索”的样本。这一问题在数据稀缺场景下尤为突出——当数据量相对较小（仅为大规模 MSR-VTT 数据集的 10%）时，难以充分覆盖复杂的音视频嵌入空间。在此背景下，我们提出了 Rudder：一个支持多语言的视频-文本检索数据集，包含马拉地语、印地语、泰米尔语、卡纳达语、马拉雅拉姆语和泰卢固语的音频与文本字幕。为进一步缓解数据稀缺问题，我们提出利用领域知识增强监督信号。为此，除了传统的三元组结构（锚点、正样本、负样本）外，我们引入第四个组成部分——“部分样本”（partial），构建一种基于偏序关系的差异化边界损失（differential margin based partial-order loss）。这些“部分样本”通过启发式方式采样，其语义上位于正样本与负样本的重叠区域，从而实现更广泛的嵌入空间覆盖。实验结果表明，我们的方法在多个指标上持续优于传统的最大边界损失（max-margin）和三元组损失，并在 MSR-VTT 与 DiDeMO 数据集上显著提升了当前最优性能。我们在 Rudder 数据集上建立了基准测试结果，同时观察到所提出的偏序损失在跨语言对齐的加持下，尤其在联合训练各语言特定检索模型时，带来了显著的性能提升。

源 PDF