
摘要
弱监督时序动作定位旨在仅使用视频级标签学习检测动作类别的时序区间。为此,关键在于将属于动作类别的帧与背景帧(即不属于任何动作类别的帧)区分开来。本文从新视角看待背景帧,将其建模为由于不一致性而属于分布外(out-of-distribution)的样本。由此,可通过估计每帧属于分布外的概率(即不确定性)来检测背景帧。然而,在缺乏帧级标签的情况下,直接学习不确定性是不可行的。为在弱监督设定下实现不确定性学习,我们采用多实例学习(Multiple Instance Learning, MIL)的框架。此外,我们进一步引入一种背景熵损失(background entropy loss),通过促使背景帧在所有动作类别上的分布内(in-distribution)概率呈均匀分布,从而更有效地区分背景帧。实验结果表明,所提出的不确定性建模方法能有效缓解背景帧的干扰,并在不依赖复杂技巧的情况下显著提升性能。我们在THUMOS'14和ActivityNet(1.2与1.3版本)基准测试上均显著优于当前最先进的方法。相关代码已开源,地址为:https://github.com/Pilhyeon/WTAL-Uncertainty-Modeling。
代码仓库
Pilhyeon/WTAL-Uncertainty-Modeling
官方
pytorch
GitHub 中提及
Pilhyeon/Learning-Action-Completeness-from-Points
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| weakly-supervised-action-localization-on | Lee et al. | mAP@0.1:0.5: 51.6 mAP@0.1:0.7: 41.9 mAP@0.5: 33.7 |
| weakly-supervised-action-localization-on-1 | Lee et al. | mAP@0.5: 37 mAP@0.5:0.95: 23.7 |
| weakly-supervised-action-localization-on-2 | Lee et al. | Mean mAP: 25.9 mAP@0.5: 41.2 |
| weakly-supervised-action-localization-on-4 | Lee et al. | mAP@0.5: 33.7 |
| weakly-supervised-action-localization-on-5 | Lee et al. | avg-mAP (0.1-0.5): 51.6 avg-mAP (0.1:0.7): 41.9 avg-mAP (0.3-0.7): 32.9 |