
摘要
现有的视频片段检索和高光检测方法无法高效地对齐文本和视频特征,导致性能不尽如人意且在实际应用中受到限制。为了解决这一问题,我们提出了一种新颖的架构,该架构利用了最近设计用于此类对齐的基础视频模型。结合引入的显著性引导交叉注意力机制(Saliency-Guided Cross Attention)和混合DETR架构,我们的方法在片段检索和高光检测任务中显著提升了性能。为了进一步改进,我们开发了InterVid-MR,这是一个大规模且高质量的数据集,用于预训练。通过使用该数据集,我们的架构在QVHighlights、Charades-STA和TACoS基准测试中取得了最先进的结果。所提出的方法为视频-语言任务中的零样本学习和微调场景提供了一个高效且可扩展的解决方案。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| highlight-detection-on-qvhighlights | SG-DETR | Hit@1: 69.13 mAP: 43.76 |
| highlight-detection-on-qvhighlights | SG-DETR (w/ PT) | Hit@1: 71.00 mAP: 44.70 |
| highlight-detection-on-tvsum | SG-DETR | mAP: 87.1 |
| highlight-detection-on-youtube-highlights | SG-DETR | mAP: 76.7 |
| highlight-detection-on-youtube-highlights | SG-DETR (w/ PT) | mAP: 78.0 |
| moment-retrieval-on-charades-sta | SG-DETR (w/ PT) | R@1 IoU=0.5: 71.10 R@1 IoU=0.7: 52.80 |
| moment-retrieval-on-charades-sta | SG-DETR | R@1 IoU=0.5: 70.20 R@1 IoU=0.7: 49.50 |
| moment-retrieval-on-qvhighlights | SG-DETR | R@1 IoU=0.5: 72.20 R@1 IoU=0.7: 56.60 mAP: 54.10 mAP@0.5: 73.20 mAP@0.75: 55.80 |
| moment-retrieval-on-qvhighlights | SG-DETR (w/ PT) | R@1 IoU=0.5: 74.20 R@1 IoU=0.7: 60.40 mAP: 58.80 mAP@0.5: 76.20 mAP@0.75: 60.80 |
| natural-language-moment-retrieval-on-tacos | SG-DETR | R@1,IoU=0.3: 56.71 R@1,IoU=0.5: 44.70 R@1,IoU=0.7: 29.90 mIoU: 40.90 |
| natural-language-moment-retrieval-on-tacos | SG-DETR (w/ PT) | R@1,IoU=0.3: 58.10 R@1,IoU=0.5: 46.40 R@1,IoU=0.7: 33.90 mIoU: 42.40 |
| zero-shot-moment-retrieval-on-qvhighlights | SG-DETR (ZS) | R1@0.5: 63.90 R1@0.7: 49.60 mAP: 48.30 mAP@0.5: 67.50 mAP@0.75: 49.00 |