3 个月前

UMT:用于联合视频瞬间检索与精彩片段检测的统一多模态Transformer

UMT:用于联合视频瞬间检索与精彩片段检测的统一多模态Transformer

摘要

在当前视频内容爆炸式增长的时代,根据自然语言查询准确识别相关片段与视频亮点,已成为一项自然且极具价值的普遍需求。然而,将片段检索(moment retrieval)与亮点检测(highlight detection)联合进行研究仍属于新兴课题,尽管其组成部分及相关任务已得到长期探索。本文提出首个统一框架——统一多模态Transformer(Unified Multi-modal Transformers, UMT),该框架不仅能实现两者的联合优化,还可轻松退化为解决单一任务的方案。据我们所知,这是首个将多模态(视觉-音频)学习机制同时应用于联合优化或独立片段检索任务的方案,并通过一种新颖的查询生成器与查询解码器,将片段检索建模为关键点检测问题。在QVHighlights、Charades-STA、YouTube Highlights和TVSum等多个数据集上的大量对比实验与消融研究充分验证了所提方法在多种场景下的有效性、优越性与灵活性。项目源代码与预训练模型已开源,地址为:https://github.com/TencentARC/UMT。

代码仓库

基准测试

基准方法指标
highlight-detection-on-qvhighlightsUMT (w. PT)
mAP: 39.12
highlight-detection-on-qvhighlightsUMT
mAP: 38.18
highlight-detection-on-tvsumUMT
mAP: 83.1
highlight-detection-on-youtube-highlightsUMT
mAP: 74.9
moment-retrieval-on-charades-staUMT (VO)
R@1 IoU=0.5: 49.35
R@1 IoU=0.7: 26.16
R@5 IoU=0.5: 89.41
R@5 IoU=0.7: 54.95
moment-retrieval-on-charades-staUMT (VA)
R@1 IoU=0.5: 48.31
R@1 IoU=0.7: 29.25
R@5 IoU=0.5: 88.79
R@5 IoU=0.7: 56.08
moment-retrieval-on-qvhighlightsUMT
mAP: 36.12
moment-retrieval-on-qvhighlightsUMT (w/ audio + PT ASR Cpations)
mAP: 38.08
video-grounding-on-qvhighlightsUMT
R@1,IoU=0.5: 56.23
R@1,IoU=0.7: 41.18

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
UMT:用于联合视频瞬间检索与精彩片段检测的统一多模态Transformer | 论文 | HyperAI超神经