
摘要
近日,随着对视频理解需求的急剧增加,视频片段检索和高光检测(MR/HD)受到了广泛关注。MR/HD的主要目标是在给定文本查询的情况下,定位视频中的特定时刻并估计每个片段与查询的相关性水平,即显著性分数。尽管最近基于变压器的模型取得了一些进展,但我们发现这些方法并未充分利用给定查询的信息。例如,在预测时刻及其显著性时,有时会忽略文本查询与视频内容之间的相关性。为了解决这一问题,我们引入了Query-Dependent DETR(QD-DETR),这是一种专门为MR/HD设计的检测变压器。鉴于我们在变压器架构中观察到给定查询的作用微乎其微,我们的编码模块从交叉注意力层开始,明确地将文本查询的上下文注入到视频表示中。接下来,为了增强模型利用查询信息的能力,我们对视频-查询对进行操作以生成无关对。这些负样本(无关)的视频-查询对被训练以产生较低的显著性分数,从而促使模型更精确地估计查询-视频对之间的相关性。最后,我们提出了一种输入自适应显著性预测器,该预测器能够根据给定的视频-查询对自适应地定义显著性分数的标准。我们的大量研究表明,在MR/HD任务中构建依赖于查询的表示的重要性。具体而言,QD-DETR在QVHighlights、TVSum和Charades-STA数据集上超越了现有最先进方法。代码可在github.com/wjun0830/QD-DETR获取。
代码仓库
wjun0830/qd-detr
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| highlight-detection-on-qvhighlights | QD-DETR (only Video w/ PT) | Hit@1: 61.91 |
| highlight-detection-on-qvhighlights | QD-DETR | Hit@1: 62.87 mAP: 39.04 |
| highlight-detection-on-qvhighlights | QD-DETR (w/ PT) | Hit@1: 62.27 mAP: 38.52 |
| highlight-detection-on-qvhighlights | QD-DETR (only Video) | Hit@1: 62.40 mAP: 38.94 |
| highlight-detection-on-tvsum | QD-DETR | mAP: 86.6 |
| highlight-detection-on-tvsum | QD-DETR (only Video) | mAP: 85.0 |
| moment-retrieval-on-charades-sta | QD-DETR (Only Video) | R@1 IoU=0.5: 57.31 R@1 IoU=0.7: 32.55 |
| moment-retrieval-on-qvhighlights | QD-DETR (only Video) | R@1 IoU=0.5: 62.40 R@1 IoU=0.7: 44.98 mAP: 39.86 mAP@0.5: 62.52 mAP@0.75: 39.88 |
| moment-retrieval-on-qvhighlights | QD-DETR (w/ audio) | R@1 IoU=0.5: 63.06 R@1 IoU=0.7: 45.10 mAP: 40.19 mAP@0.5: 63.04 mAP@0.75: 40.10 |
| moment-retrieval-on-qvhighlights | QD-DETR (w/ PT) | R@1 IoU=0.5: 64.1 R@1 IoU=0.7: 46.1 mAP: 40.62 mAP@0.5: 64.3 mAP@0.75: 40.5 |
| moment-retrieval-on-qvhighlights | QD-DETR (only Video w/ PT ASR Captions) | R@1 IoU=0.5: 63.2 R@1 IoU=0.7: 45.2 mAP: 40.0 mAP@0.5: 63.4 mAP@0.75: 40.4 |
| video-grounding-on-qvhighlights | QD-DETR | R@1,IoU=0.5: 62.40 R@1,IoU=0.7: 44.98 |