
摘要
通过文本查询检索未标记视频,即即席视频搜索(Ad-hoc Video Search, AVS),是多媒体数据管理和检索中的一个核心主题。AVS的成功依赖于跨模态表示学习,该方法将查询句子和视频编码到共同的空间中以进行语义相似度计算。受到先前一些工作在结合多个句子编码器方面取得初步成功的启发,本文提出了一种新的通用方法,有效利用多种句子编码器。我们将其称为句子编码器组装(Sentence Encoder Assembly, SEA)。SEA 方法的新颖性体现在两个方面:首先,与以往仅使用单一共同空间的方法不同,SEA 支持在多个编码器特定的共同空间中进行文本-视频匹配。这一特性防止了匹配结果被某个产生远长于其他编码器的向量的特定编码器所主导。其次,为了探索各个共同空间之间的互补性,我们提出了多空间多损失学习方法。广泛的实验结果显示,在四个基准数据集(MSR-VTT、TRECVID AVS 2016-2019、TGIF 和 MSVD)上,SEA 超越了现有最先进方法。此外,SEA 的实现极其简便。所有这些特点使得 SEA 成为 AVS 的一种有吸引力的解决方案,并有望通过引入新的句子编码器不断推进该任务的发展。
代码仓库
li-xirong/sea
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| ad-hoc-video-search-on-trecvid-avs16-iacc-3 | SEA | infAP: 0.164 |
| ad-hoc-video-search-on-trecvid-avs17-iacc-3 | SEA | infAP: 0.234 |
| ad-hoc-video-search-on-trecvid-avs18-iacc-3 | SEA | infAP: 0.128 |
| ad-hoc-video-search-on-trecvid-avs19-v3c1 | SEA | infAP: 0.167 |