4 个月前

面向查询的视频表示用于时刻检索和高光检测

面向查询的视频表示用于时刻检索和高光检测

摘要

近日,随着对视频理解需求的急剧增加,视频片段检索和高光检测(MR/HD)受到了广泛关注。MR/HD的主要目标是在给定文本查询的情况下,定位视频中的特定时刻并估计每个片段与查询的相关性水平,即显著性分数。尽管最近基于变压器的模型取得了一些进展,但我们发现这些方法并未充分利用给定查询的信息。例如,在预测时刻及其显著性时,有时会忽略文本查询与视频内容之间的相关性。为了解决这一问题,我们引入了Query-Dependent DETR(QD-DETR),这是一种专门为MR/HD设计的检测变压器。鉴于我们在变压器架构中观察到给定查询的作用微乎其微,我们的编码模块从交叉注意力层开始,明确地将文本查询的上下文注入到视频表示中。接下来,为了增强模型利用查询信息的能力,我们对视频-查询对进行操作以生成无关对。这些负样本(无关)的视频-查询对被训练以产生较低的显著性分数,从而促使模型更精确地估计查询-视频对之间的相关性。最后,我们提出了一种输入自适应显著性预测器,该预测器能够根据给定的视频-查询对自适应地定义显著性分数的标准。我们的大量研究表明,在MR/HD任务中构建依赖于查询的表示的重要性。具体而言,QD-DETR在QVHighlights、TVSum和Charades-STA数据集上超越了现有最先进方法。代码可在github.com/wjun0830/QD-DETR获取。

代码仓库

wjun0830/qd-detr
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
highlight-detection-on-qvhighlightsQD-DETR (only Video w/ PT)
Hit@1: 61.91
highlight-detection-on-qvhighlightsQD-DETR
Hit@1: 62.87
mAP: 39.04
highlight-detection-on-qvhighlightsQD-DETR (w/ PT)
Hit@1: 62.27
mAP: 38.52
highlight-detection-on-qvhighlightsQD-DETR (only Video)
Hit@1: 62.40
mAP: 38.94
highlight-detection-on-tvsumQD-DETR
mAP: 86.6
highlight-detection-on-tvsumQD-DETR (only Video)
mAP: 85.0
moment-retrieval-on-charades-staQD-DETR (Only Video)
R@1 IoU=0.5: 57.31
R@1 IoU=0.7: 32.55
moment-retrieval-on-qvhighlightsQD-DETR (only Video)
R@1 IoU=0.5: 62.40
R@1 IoU=0.7: 44.98
mAP: 39.86
mAP@0.5: 62.52
mAP@0.75: 39.88
moment-retrieval-on-qvhighlightsQD-DETR (w/ audio)
R@1 IoU=0.5: 63.06
R@1 IoU=0.7: 45.10
mAP: 40.19
mAP@0.5: 63.04
mAP@0.75: 40.10
moment-retrieval-on-qvhighlightsQD-DETR (w/ PT)
R@1 IoU=0.5: 64.1
R@1 IoU=0.7: 46.1
mAP: 40.62
mAP@0.5: 64.3
mAP@0.75: 40.5
moment-retrieval-on-qvhighlightsQD-DETR (only Video w/ PT ASR Captions)
R@1 IoU=0.5: 63.2
R@1 IoU=0.7: 45.2
mAP: 40.0
mAP@0.5: 63.4
mAP@0.75: 40.4
video-grounding-on-qvhighlightsQD-DETR
R@1,IoU=0.5: 62.40
R@1,IoU=0.7: 44.98

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
面向查询的视频表示用于时刻检索和高光检测 | 论文 | HyperAI超神经