
摘要
在当前视频内容爆炸式增长的时代,根据自然语言查询准确识别相关片段与视频亮点,已成为一项自然且极具价值的普遍需求。然而,将片段检索(moment retrieval)与亮点检测(highlight detection)联合进行研究仍属于新兴课题,尽管其组成部分及相关任务已得到长期探索。本文提出首个统一框架——统一多模态Transformer(Unified Multi-modal Transformers, UMT),该框架不仅能实现两者的联合优化,还可轻松退化为解决单一任务的方案。据我们所知,这是首个将多模态(视觉-音频)学习机制同时应用于联合优化或独立片段检索任务的方案,并通过一种新颖的查询生成器与查询解码器,将片段检索建模为关键点检测问题。在QVHighlights、Charades-STA、YouTube Highlights和TVSum等多个数据集上的大量对比实验与消融研究充分验证了所提方法在多种场景下的有效性、优越性与灵活性。项目源代码与预训练模型已开源,地址为:https://github.com/TencentARC/UMT。
代码仓库
MS-P3/code7/tree/main/umt5
mindspore
MindCode-4/code-5/tree/main/umt5
mindspore
tencentarc/umt
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| highlight-detection-on-qvhighlights | UMT (w. PT) | mAP: 39.12 |
| highlight-detection-on-qvhighlights | UMT | mAP: 38.18 |
| highlight-detection-on-tvsum | UMT | mAP: 83.1 |
| highlight-detection-on-youtube-highlights | UMT | mAP: 74.9 |
| moment-retrieval-on-charades-sta | UMT (VO) | R@1 IoU=0.5: 49.35 R@1 IoU=0.7: 26.16 R@5 IoU=0.5: 89.41 R@5 IoU=0.7: 54.95 |
| moment-retrieval-on-charades-sta | UMT (VA) | R@1 IoU=0.5: 48.31 R@1 IoU=0.7: 29.25 R@5 IoU=0.5: 88.79 R@5 IoU=0.7: 56.08 |
| moment-retrieval-on-qvhighlights | UMT | mAP: 36.12 |
| moment-retrieval-on-qvhighlights | UMT (w/ audio + PT ASR Cpations) | mAP: 38.08 |
| video-grounding-on-qvhighlights | UMT | R@1,IoU=0.5: 56.23 R@1,IoU=0.7: 41.18 |