
摘要
本文介绍了一种名为ViSiL(Video Similarity Learning)的视频相似度学习架构,该架构考虑了视频对之间的细粒度时空关系——这些关系在以往的视频检索方法中通常会丢失,因为这些方法在进行相似度估计之前,会将整个帧甚至整段视频嵌入到一个向量描述符中。相比之下,我们基于卷积神经网络(CNN)的方法训练用于从精细的帧间相似度矩阵计算视频间的相似度,从而同时考虑帧内和帧间的关系。在所提出的方法中,通过应用张量点积(Tensor Dot, TD)和查姆费尔相似度(Chamfer Similarity, CS)来估计区域CNN帧特征之间的两两帧相似度——这避免了在帧间相似度计算前进行特征聚合。随后,所有视频帧之间的相似度矩阵被输入到一个四层的CNN中,并通过查姆费尔相似度(CS)汇总为一个视频间的相似度分数——这避免了在视频间相似度计算前进行特征聚合,并捕捉到了匹配帧序列之间的时序相似模式。我们使用三元组损失方案训练所提出的网络,并在四个不同的视频检索问题上对其进行了评估,涉及五个公开基准数据集,在这些数据集上展示了相对于现有技术的巨大改进。ViSiL的实现代码已公开提供。
代码仓库
MKLab-ITI/visil
官方
tf
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-retrieval-on-fivr-200k | ViSiLf | mAP (CSVR): 0.797 mAP (DSVR): 0.843 mAP (ISVR): 0.660 |
| video-retrieval-on-fivr-200k | ViSiLsym | mAP (CSVR): 0.792 mAP (DSVR): 0.833 mAP (ISVR): 0.654 |
| video-retrieval-on-fivr-200k | ViSiLv (pt) | mAP (CSVR): 0.854 mAP (DSVR): 0.899 mAP (ISVR): 0.723 |
| video-retrieval-on-fivr-200k | ViSiLv (tf) | mAP (CSVR): 0.841 mAP (DSVR): 0.892 mAP (ISVR): 0.702 |