
摘要
点监督时序动作定位(Point-supervised Temporal Action Localization, PSTAL)是一种面向标签高效学习的新兴研究方向。然而,现有方法主要集中在片段级(snippet-level)或实例级(instance-level)网络结构的优化,忽视了点标注在两个层级上所蕴含的固有可靠性。为此,本文提出一种分层可靠性传播(Hierarchical Reliability Propagation, HR-Pro)框架,包含两个具有可靠性感知能力的阶段:片段级判别学习与实例级完整性学习。两个阶段均致力于高效传播点标注中高置信度的线索信息。在片段级学习中,我们引入一种在线更新的记忆模块,用于存储每个类别的可靠片段原型。随后,通过设计一种可靠性感知注意力模块(Reliability-aware Attention Block),捕捉片段在视频内部及跨视频之间的依赖关系,从而获得更具判别性与鲁棒性的片段表征。在实例级学习中,我们提出一种基于点的候选区域生成方法,用以建立片段与实例之间的连接,生成高置信度的候选动作片段,为后续实例级优化提供基础。通过多层次的可靠性感知学习,我们获得了更可靠的置信度分数以及更精确的预测候选动作的时间边界。实验结果表明,HR-Pro在多个具有挑战性的基准数据集上均取得了当前最优性能,在THUMOS14数据集上实现了60.3%的平均mAP,表现尤为突出。值得注意的是,HR-Pro显著超越了所有先前的点监督方法,甚至在部分指标上优于若干先进的全监督方法。代码将公开于 https://github.com/pipixin321/HR-Pro。
代码仓库
pipixin321/hr-pro
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| weakly-supervised-action-localization-on | HR-Pro | mAP@0.1:0.5: 71.6 mAP@0.1:0.7: 60.3 mAP@0.5: 52.2 |
| weakly-supervised-action-localization-on-5 | HR-Pro | avg-mAP (0.1-0.5): 71.6 avg-mAP (0.1:0.7): 60.3 avg-mAP (0.3-0.7): 51.1 |
| weakly-supervised-action-localization-on-6 | HR-Pro | mAP@0.1:0.7: 59.4 mAP@0.5: 55.3 |
| weakly-supervised-action-localization-on-gtea | HR-Pro | mAP@0.1:0.7: 47.3 mAP@0.5: 37.3 |