4 个月前

部分相关视频检索

部分相关视频检索

摘要

当前用于文本到视频检索(Text-to-Video Retrieval, T2VR)的方法大多是在面向视频字幕的数据集上进行训练和测试,如MSVD、MSR-VTT和VATEX。这些数据集的一个关键特性是假设视频在时间上已经预先剪辑过,且时长较短,而提供的字幕能够很好地描述视频的核心内容。因此,对于给定的一对视频和字幕,视频应完全与字幕相关。然而,在实际应用中,由于查询内容事先未知,预先剪辑的视频片段可能无法包含足够的内容来完全满足查询需求。这表明现有文献与现实世界之间存在差距。为了填补这一差距,本文提出了一种新的T2VR子任务——部分相关视频检索(Partially Relevant Video Retrieval, PRVR)。如果一个未剪辑的视频中包含与给定文本查询相关的时刻,则该视频被视为部分相关。PRVR的目标是从大量未剪辑的视频集合中检索出这样的部分相关视频。PRVR与单个视频时刻检索和视频语料库时刻检索不同,因为后两者旨在检索具体的时刻而非未剪辑的完整视频。我们将PRVR表述为一个多实例学习(Multiple Instance Learning, MIL)问题,在此问题中,一个视频同时被视为一组视频片段和一组视频帧。片段和帧分别代表了不同时间尺度上的视频内容。我们提出了一种多尺度相似度学习(Multi-Scale Similarity Learning, MS-SL)网络,该网络联合学习片段级和帧级的相似度以实现PRVR。在三个数据集(TVR、ActivityNet Captions 和 Charades-STA)上进行的广泛实验验证了所提方法的有效性。此外,我们还展示了该方法可以用于改进视频语料库时刻检索。

代码仓库

HuiGuanLab/ms-sl
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
partially-relevant-video-retrieval-onms-sl
Recall@Sum: 140.1
partially-relevant-video-retrieval-on-1ms-sl
Recall@Sum: 68.4
partially-relevant-video-retrieval-on-tvrms-sl
Recall@Sum: 172.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供