4 个月前

基于显著性的DETR用于时刻检索和高光检测

基于显著性的DETR用于时刻检索和高光检测

摘要

现有的视频片段检索和高光检测方法无法高效地对齐文本和视频特征,导致性能不尽如人意且在实际应用中受到限制。为了解决这一问题,我们提出了一种新颖的架构,该架构利用了最近设计用于此类对齐的基础视频模型。结合引入的显著性引导交叉注意力机制(Saliency-Guided Cross Attention)和混合DETR架构,我们的方法在片段检索和高光检测任务中显著提升了性能。为了进一步改进,我们开发了InterVid-MR,这是一个大规模且高质量的数据集,用于预训练。通过使用该数据集,我们的架构在QVHighlights、Charades-STA和TACoS基准测试中取得了最先进的结果。所提出的方法为视频-语言任务中的零样本学习和微调场景提供了一个高效且可扩展的解决方案。

代码仓库

基准测试

基准方法指标
highlight-detection-on-qvhighlightsSG-DETR
Hit@1: 69.13
mAP: 43.76
highlight-detection-on-qvhighlightsSG-DETR (w/ PT)
Hit@1: 71.00
mAP: 44.70
highlight-detection-on-tvsumSG-DETR
mAP: 87.1
highlight-detection-on-youtube-highlightsSG-DETR
mAP: 76.7
highlight-detection-on-youtube-highlightsSG-DETR (w/ PT)
mAP: 78.0
moment-retrieval-on-charades-staSG-DETR (w/ PT)
R@1 IoU=0.5: 71.10
R@1 IoU=0.7: 52.80
moment-retrieval-on-charades-staSG-DETR
R@1 IoU=0.5: 70.20
R@1 IoU=0.7: 49.50
moment-retrieval-on-qvhighlightsSG-DETR
R@1 IoU=0.5: 72.20
R@1 IoU=0.7: 56.60
mAP: 54.10
mAP@0.5: 73.20
mAP@0.75: 55.80
moment-retrieval-on-qvhighlightsSG-DETR (w/ PT)
R@1 IoU=0.5: 74.20
R@1 IoU=0.7: 60.40
mAP: 58.80
mAP@0.5: 76.20
mAP@0.75: 60.80
natural-language-moment-retrieval-on-tacosSG-DETR
R@1,IoU=0.3: 56.71
R@1,IoU=0.5: 44.70
R@1,IoU=0.7: 29.90
mIoU: 40.90
natural-language-moment-retrieval-on-tacosSG-DETR (w/ PT)
R@1,IoU=0.3: 58.10
R@1,IoU=0.5: 46.40
R@1,IoU=0.7: 33.90
mIoU: 42.40
zero-shot-moment-retrieval-on-qvhighlightsSG-DETR (ZS)
R1@0.5: 63.90
R1@0.7: 49.60
mAP: 48.30
mAP@0.5: 67.50
mAP@0.75: 49.00

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于显著性的DETR用于时刻检索和高光检测 | 论文 | HyperAI超神经