3 个月前

QVHighlights:通过自然语言查询检测视频中的时刻与亮点

QVHighlights:通过自然语言查询检测视频中的时刻与亮点

摘要

根据自然语言(NL)用户查询从视频中检测定制化片段与精彩时刻,是一个重要但研究尚不充分的课题。该方向面临的主要挑战之一是缺乏标注数据。为解决这一问题,我们提出了基于查询的视频精彩片段数据集(Query-based Video Highlights,简称 QVHIGHLIGHTS)。该数据集包含超过10,000个YouTube视频,涵盖广泛的主题,从生活类Vlog中的日常活动与旅行场景,到新闻视频中的社会与政治事件。每个视频均经过如下三方面标注:(1)由人工撰写的自由形式自然语言查询;(2)与查询相关的时间片段;(3)针对所有与查询相关片段的五分制显著性评分(saliency scores)。这一全面的标注体系使得我们能够开发并评估能够响应多样化、灵活用户查询,准确识别相关片段及显著精彩时刻的系统。此外,我们提出了一种强大的基线模型——Moment-DETR,这是一种基于Transformer编码器-解码器架构的模型,将片段检索问题建模为直接的集合预测任务。该模型以提取的视频特征和查询特征作为输入,端到端地预测片段的时间坐标与显著性评分。尽管模型未引入任何人工先验知识,但实验结果表明,其性能在与精心设计的架构对比中仍具有竞争力。通过采用弱监督预训练(利用ASR生成的字幕进行预训练),Moment-DETR显著优于以往方法。最后,我们对Moment-DETR进行了多项消融实验与可视化分析,以深入理解其行为机制。相关数据与代码已公开发布于:https://github.com/jayleicn/moment_detr

代码仓库

houzhijian/cone
pytorch
GitHub 中提及
yeliudev/R2-Tuning
pytorch
GitHub 中提及
jayleicn/moment_detr
官方
pytorch
GitHub 中提及
tencentarc/umt
pytorch
GitHub 中提及

基准测试

基准方法指标
highlight-detection-on-qvhighlightsMoment-DETR w/ PT
Hit@1: 60.17
mAP: 37.43
moment-retrieval-on-charades-staMoment-DETR
R@1 IoU=0.5: 53.63
R@1 IoU=0.7: 31.37
moment-retrieval-on-charades-staMoment-DETR w/ PT (on 10K HowTo100M videos)
R@1 IoU=0.5: 55.65
R@1 IoU=0.7: 34.17
moment-retrieval-on-qvhighlightsMoment-DETR (w/ PT ASR Cpations)
R@1 IoU=0.5: 59.78
R@1 IoU=0.7: 40.33
mAP: 36.14
mAP@0.5: 60.51
mAP@0.75: 35.36

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
QVHighlights:通过自然语言查询检测视频中的时刻与亮点 | 论文 | HyperAI超神经