
摘要
在基于内容的视频检索(CBVR)中,面对大规模视频集合时,效率与准确性同样重要,因此基于视频级特征的研究已受到广泛关注。然而,由于将长时且未剪辑的视频嵌入单一特征面临巨大挑战,此类方法在检索准确性方面仍难以与基于帧级特征的方法相媲美。本文指出,合理抑制无关帧信息可为当前视频级方法所面临的瓶颈提供新的洞察。为此,我们提出一种端到端的视频到视频抑制网络(Video-to-Video Suppression network, VVS)。VVS包含两个关键阶段:一是易于干扰项剔除阶段,用于识别应被移除的帧;二是抑制权重生成阶段,用于确定剩余帧的抑制程度。该结构旨在有效表征内容多样、包含冗余信息的未剪辑视频。大量实验验证了该方法的有效性,结果表明,我们的方法不仅在视频级检索任务中达到当前最优水平,同时在保持接近帧级方法检索性能的前提下,仍具备快速的推理速度。代码已开源,地址为:https://github.com/sejong-rcv/VVS。
代码仓库
sejong-rcv/VVS
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| video-retrieval-on-fivr-200k | VVS | mAP (CSVR): 0.689 mAP (DSVR): 0.711 mAP (ISVR): 0.590 |