4 个月前

FlashVTG:视频时间定位的特征层叠与自适应评分处理网络

FlashVTG:视频时间定位的特征层叠与自适应评分处理网络

摘要

文本引导的视频时间定位(VTG)旨在根据文本描述在未剪辑的视频中定位相关的片段,包括两个子任务:时刻检索(MR)和高光检测(HD)。尽管先前的方法已经取得了令人瞩目的成果,但检索短视频片段仍然具有挑战性。这主要是由于依赖稀疏且有限的解码器查询,这些查询极大地限制了预测的准确性。此外,次优结果往往是因为先前的方法基于孤立的预测进行排序,忽略了更广泛的视频上下文。为了解决这些问题,我们引入了FlashVTG框架,该框架包含一个时间特征层叠(TFL)模块和一个自适应评分精炼(ASR)模块。TFL模块替代了传统的解码器结构,以捕捉多个时间尺度上的细微视频内容变化;而ASR模块通过整合相邻时刻和多时间尺度特征的上下文来改进预测排序。大量实验表明,FlashVTG在四个广泛使用的数据集上均实现了最先进的性能,无论是MR还是HD。具体而言,在QVHighlights数据集上,它将MR的mAP提高了5.8%,将HD的mAP提高了3.3%。对于短时刻检索,FlashVTG将mAP提升至之前最佳性能的125%。所有这些改进都是在不增加训练负担的情况下实现的,突显了其有效性。我们的代码可在https://github.com/Zhuo-Cao/FlashVTG 获取。

代码仓库

zhuo-cao/flashvtg
官方
pytorch

基准测试

基准方法指标
highlight-detection-on-qvhighlightsFlashVTG
Hit@1: 71.01
mAP: 44.09
highlight-detection-on-tvsumFlashVTG
mAP: 88
highlight-detection-on-youtube-highlightsFlashVTG
mAP: 75.4
moment-retrieval-on-charades-staFlashVTG
R@1 IoU=0.5: 70.32
R@1 IoU=0.7: 49.87
moment-retrieval-on-qvhighlightsFlashVTG
R@1 IoU=0.5: 70.69
R@1 IoU=0.7: 53.96
mAP: 52.00
mAP@0.5: 72.33
mAP@0.75: 53.85
natural-language-moment-retrieval-on-tacosFlashVTG
R@1,IoU=0.3: 53.71
R@1,IoU=0.5: 41.76
R@1,IoU=0.7: 24.74
mIoU: 37.61

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
FlashVTG:视频时间定位的特征层叠与自适应评分处理网络 | 论文 | HyperAI超神经