4 个月前

多粒度生成器用于时间动作提议

多粒度生成器用于时间动作提议

摘要

时间动作提案生成是一项重要任务,旨在定位未剪辑视频中包含人类动作的视频片段。在本文中,我们提出了一种多粒度生成器(MGG),从不同的粒度视角利用视频视觉特征及位置嵌入信息进行时间动作提案生成。首先,我们提出使用双线性匹配模型来挖掘视频序列中的丰富局部信息。随后,我们将两个组件——即段落提案生产者(SPP)和帧级动作性生产者(FAP)——结合在一起,以两种不同的粒度执行时间动作提案任务。SPP 以特征金字塔的形式考虑整个视频,并从一个粗略的角度生成段落提案;而 FAP 则对每个视频帧进行更精细的动作性评估。我们提出的 MGG 可以端到端地进行训练。通过使用细粒度的帧级动作性信息对段落提案进行时间调整,MGG 在公开的 THUMOS-14 和 ActivityNet-1.3 数据集上实现了优于现有方法的性能。此外,我们还利用现有的动作分类器对 MGG 生成的提案进行分类,从而在视频检测任务上相比竞争方法取得了显著改进。

基准测试

基准方法指标
action-recognition-in-videos-on-thumos14MGG UNet
mAP@0.3: 53.9
mAP@0.4: 46.8
mAP@0.5: 37.4
temporal-action-proposal-generation-onMGG
AR@100: 74.54
AUC (val): 66.43

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
多粒度生成器用于时间动作提议 | 论文 | HyperAI超神经