
摘要
弱监督时序动作定位旨在仅使用视频级别的动作类别标签,对未剪辑视频中的动作进行定位。以往大多数方法忽略了类别激活序列(Class Activation Sequence, CAS)的不完整性问题,导致定位结果趋于平凡化。为解决该问题,本文提出一种自适应互监督框架(Adaptive Mutual Supervision, AMS),包含两个并行分支:基础分支利用CAS定位最具判别性的动作区域,而辅助分支则通过一种新颖的自适应采样器,定位判别性较弱的动作区域。该自适应采样器根据基础分支输出的CAS,动态生成与之负相关的采样权重序列,从而引导辅助分支关注被基础分支低估的动作区域。为进一步促进两分支间的相互增强,本文构建了互位监督机制:每个分支均以另一分支生成的位置伪标签作为定位监督信号。通过在多个迭代中交替优化两个分支,实现对动作区域的逐步完善。在THUMOS14和ActivityNet1.2数据集上的大量实验表明,所提出的AMS方法显著优于现有最先进方法。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| weakly-supervised-action-localization-on-5 | AMS | avg-mAP (0.1-0.5): 52.0 avg-mAP (0.1:0.7): 42.3 avg-mAP (0.3-0.7): 32.4 |