
摘要
视频时刻检索(MR)和高光检测(HD)由于对视频分析需求的不断增长而受到了广泛关注。近期的方法将MR和HD视为类似的视频定位问题,并通过基于变压器的架构来共同解决这些问题。然而,我们观察到MR和HD的重点不同,前者需要感知局部关系,而后者则优先考虑全局上下文的理解。因此,缺乏针对特定任务的设计将不可避免地导致在关联这两个任务内在特点方面的局限性。为了解决这一问题,我们提出了一种统一的视频理解框架(UVCOM),以弥合差距并有效联合解决MR和HD。通过在多粒度上进行模态内和模态间的渐进融合,UVCOM 实现了对视频处理的全面理解。此外,我们提出了多方面对比学习方法,通过对齐良好的多模态空间来加强局部关系建模和全局知识积累。在QVHighlights、Charades-STA、TACoS、YouTube Highlights 和 TVSum 数据集上的大量实验表明,UVCOM 的有效性和合理性显著优于现有最先进方法。
代码仓库
easonxiao-888/uvcom
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| highlight-detection-on-tvsum | UVCOM (train from scratch) | mAP: 86.3 |
| highlight-detection-on-youtube-highlights | UVCOM | mAP: 77.4 |
| moment-retrieval-on-charades-sta | UVCOM | R@1 IoU=0.5: 59.25 R@1 IoU=0.7: 36.64 |
| moment-retrieval-on-qvhighlights | UVCOM (w/ PT ASR Captions) | R@1 IoU=0.5: 64.53 R@1 IoU=0.7: 48.31 mAP: 43.8 mAP@0.5: 64.78 mAP@0.75: 43.65 |
| moment-retrieval-on-qvhighlights | UVCOM | R@1 IoU=0.5: 63.55 R@1 IoU=0.7: 47.47 mAP: 43.18 mAP@0.5: 63.37 mAP@0.75: 42.67 |
| natural-language-moment-retrieval-on-tacos | UVCOM | R@1,IoU=0.5: 36.39 R@1,IoU=0.7: 23.32 |