4 个月前

ViSiL:细粒度时空视频相似性学习

ViSiL:细粒度时空视频相似性学习

摘要

本文介绍了一种名为ViSiL(Video Similarity Learning)的视频相似度学习架构,该架构考虑了视频对之间的细粒度时空关系——这些关系在以往的视频检索方法中通常会丢失,因为这些方法在进行相似度估计之前,会将整个帧甚至整段视频嵌入到一个向量描述符中。相比之下,我们基于卷积神经网络(CNN)的方法训练用于从精细的帧间相似度矩阵计算视频间的相似度,从而同时考虑帧内和帧间的关系。在所提出的方法中,通过应用张量点积(Tensor Dot, TD)和查姆费尔相似度(Chamfer Similarity, CS)来估计区域CNN帧特征之间的两两帧相似度——这避免了在帧间相似度计算前进行特征聚合。随后,所有视频帧之间的相似度矩阵被输入到一个四层的CNN中,并通过查姆费尔相似度(CS)汇总为一个视频间的相似度分数——这避免了在视频间相似度计算前进行特征聚合,并捕捉到了匹配帧序列之间的时序相似模式。我们使用三元组损失方案训练所提出的网络,并在四个不同的视频检索问题上对其进行了评估,涉及五个公开基准数据集,在这些数据集上展示了相对于现有技术的巨大改进。ViSiL的实现代码已公开提供。

代码仓库

基准测试

基准方法指标
video-retrieval-on-fivr-200kViSiLf
mAP (CSVR): 0.797
mAP (DSVR): 0.843
mAP (ISVR): 0.660
video-retrieval-on-fivr-200kViSiLsym
mAP (CSVR): 0.792
mAP (DSVR): 0.833
mAP (ISVR): 0.654
video-retrieval-on-fivr-200kViSiLv (pt)
mAP (CSVR): 0.854
mAP (DSVR): 0.899
mAP (ISVR): 0.723
video-retrieval-on-fivr-200kViSiLv (tf)
mAP (CSVR): 0.841
mAP (DSVR): 0.892
mAP (ISVR): 0.702

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ViSiL:细粒度时空视频相似性学习 | 论文 | HyperAI超神经