4 个月前

弥合差距:用于时刻检索和高光检测的统一视频理解框架

弥合差距:用于时刻检索和高光检测的统一视频理解框架

摘要

视频时刻检索(MR)和高光检测(HD)由于对视频分析需求的不断增长而受到了广泛关注。近期的方法将MR和HD视为类似的视频定位问题,并通过基于变压器的架构来共同解决这些问题。然而,我们观察到MR和HD的重点不同,前者需要感知局部关系,而后者则优先考虑全局上下文的理解。因此,缺乏针对特定任务的设计将不可避免地导致在关联这两个任务内在特点方面的局限性。为了解决这一问题,我们提出了一种统一的视频理解框架(UVCOM),以弥合差距并有效联合解决MR和HD。通过在多粒度上进行模态内和模态间的渐进融合,UVCOM 实现了对视频处理的全面理解。此外,我们提出了多方面对比学习方法,通过对齐良好的多模态空间来加强局部关系建模和全局知识积累。在QVHighlights、Charades-STA、TACoS、YouTube Highlights 和 TVSum 数据集上的大量实验表明,UVCOM 的有效性和合理性显著优于现有最先进方法。

代码仓库

easonxiao-888/uvcom
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
highlight-detection-on-tvsumUVCOM (train from scratch)
mAP: 86.3
highlight-detection-on-youtube-highlightsUVCOM
mAP: 77.4
moment-retrieval-on-charades-staUVCOM
R@1 IoU=0.5: 59.25
R@1 IoU=0.7: 36.64
moment-retrieval-on-qvhighlightsUVCOM (w/ PT ASR Captions)
R@1 IoU=0.5: 64.53
R@1 IoU=0.7: 48.31
mAP: 43.8
mAP@0.5: 64.78
mAP@0.75: 43.65
moment-retrieval-on-qvhighlightsUVCOM
R@1 IoU=0.5: 63.55
R@1 IoU=0.7: 47.47
mAP: 43.18
mAP@0.5: 63.37
mAP@0.75: 42.67
natural-language-moment-retrieval-on-tacosUVCOM
R@1,IoU=0.5: 36.39
R@1,IoU=0.7: 23.32

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
弥合差距:用于时刻检索和高光检测的统一视频理解框架 | 论文 | HyperAI超神经