
摘要
时间动作定位在理解未剪辑视频中具有重要意义。本文首先识别出弱监督学习框架下时间动作定位所面临的两个尚未充分探索的问题:动作完整性建模与动作-上下文分离。为此,我们提出一种新颖的网络架构及其训练策略,以显式地解决上述两个问题。具体而言,为建模动作的完整性,我们设计了一种多分支神经网络结构,其中各分支被强制学习识别具有差异性的动作片段。通过融合不同分支的激活响应,可实现对完整动作的有效定位。为实现动作实例与其周围上下文的有效分离,我们利用“静止视频片段极大概率不属于动作”这一先验知识,生成困难负样本用于训练,从而增强模型对动作边界的区分能力。在THUMOS'14和ActivityNet数据集上的实验结果表明,所提出的框架显著优于现有最先进方法。特别是在ActivityNet v1.2数据集上,平均mAP指标从18.0%显著提升至22.4%。相关代码将很快公开发布。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| weakly-supervised-action-localization-on | CMCS | mAP@0.1:0.7: 32.4 mAP@0.5: 23.1 |
| weakly-supervised-action-localization-on-1 | CMCS | mAP@0.5:0.95: 21.2 |
| weakly-supervised-action-localization-on-2 | CMCS | mAP@0.5: 36.8 |