
摘要
我们针对仅以单帧标签对每个动作实例进行训练时的动作时序区间定位问题展开研究。由于标签稀疏,现有方法难以学习动作的完整性,导致预测结果往往为片段化的动作。本文提出一种新颖的框架,通过生成密集的伪标签,为模型提供完整性指导。具体而言,我们首先选取伪背景点以补充点级动作标签;随后,以这些点作为种子,在保证与种子一致的前提下,搜索最可能包含完整动作实例的最优序列。为了从所得序列中学习动作完整性,我们引入两种新颖的损失函数,分别从动作得分和特征相似性两个角度,对比动作实例与背景区域。实验结果表明,该完整性指导显著提升了模型定位完整动作实例的能力,尤其在高IoU阈值下性能提升尤为显著。此外,我们在四个基准数据集(THUMOS'14、GTEA、BEOID 和 ActivityNet)上验证了所提方法优于现有最先进方法的性能。值得注意的是,我们的方法在仅需现有全监督方法约六分之一标注成本的情况下,性能已可与近期全监督方法相媲美。相关代码已开源,地址为:https://github.com/Pilhyeon。
代码仓库
Pilhyeon/Learning-Action-Completeness-from-Points
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| weakly-supervised-action-localization-on | LACP | mAP@0.1:0.5: 62.7 mAP@0.1:0.7: 52.8 mAP@0.5: 45.3 |
| weakly-supervised-action-localization-on-1 | LACP | mAP@0.5: 40.4 mAP@0.5:0.95: 25.1 |
| weakly-supervised-action-localization-on-2 | LACP | Mean mAP: 26.8 mAP@0.5: 44 |
| weakly-supervised-action-localization-on-4 | LACP | mAP@0.5: 45.3 |
| weakly-supervised-action-localization-on-5 | LACP | avg-mAP (0.1-0.5): 62.7 avg-mAP (0.1:0.7): 52.8 avg-mAP (0.3-0.7): 44.5 |
| weakly-supervised-action-localization-on-6 | LACP | mAP@0.1:0.7: 51.8 mAP@0.5: 42.7 |
| weakly-supervised-action-localization-on-gtea | LACP | mAP@0.1:0.7: 43.5 mAP@0.5: 33.9 |