
摘要
时间动作提案生成是一项重要任务,旨在定位未剪辑视频中包含人类动作的视频片段。在本文中,我们提出了一种多粒度生成器(MGG),从不同的粒度视角利用视频视觉特征及位置嵌入信息进行时间动作提案生成。首先,我们提出使用双线性匹配模型来挖掘视频序列中的丰富局部信息。随后,我们将两个组件——即段落提案生产者(SPP)和帧级动作性生产者(FAP)——结合在一起,以两种不同的粒度执行时间动作提案任务。SPP 以特征金字塔的形式考虑整个视频,并从一个粗略的角度生成段落提案;而 FAP 则对每个视频帧进行更精细的动作性评估。我们提出的 MGG 可以端到端地进行训练。通过使用细粒度的帧级动作性信息对段落提案进行时间调整,MGG 在公开的 THUMOS-14 和 ActivityNet-1.3 数据集上实现了优于现有方法的性能。此外,我们还利用现有的动作分类器对 MGG 生成的提案进行分类,从而在视频检测任务上相比竞争方法取得了显著改进。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-recognition-in-videos-on-thumos14 | MGG UNet | mAP@0.3: 53.9 mAP@0.4: 46.8 mAP@0.5: 37.4 |
| temporal-action-proposal-generation-on | MGG | AR@100: 74.54 AUC (val): 66.43 |