
摘要
在视频中定位动作是计算机视觉领域的核心任务之一。弱监督时序定位问题旨在探讨仅使用视频级别的标签是否足以完成该任务,从而显著减少对昂贵且易出错的精细标注数据的需求。一种常见的方法是训练一个帧级分类器,通过选取分类置信度最高的帧来生成视频级别的预测结果,随后利用这些帧的激活值进行动作定位。然而,由于缺乏帧级标注,分类器会对所有帧产生类别偏差。为解决这一问题,我们提出了动作选择学习(Action Selection Learning, ASL)方法,旨在捕捉动作的通用概念,我们称之为“动作性”(actionness)。在ASL框架下,模型被训练执行一种新颖的类别无关任务——预测分类器将选择哪些帧。实验结果表明,在两个主流基准数据集THUMOS-14和ActivityNet-1.2上,ASL分别相对于当前最优基线实现了10.3%和5.7%的相对性能提升。我们进一步分析了ASL的特性,验证了“动作性”这一概念的重要性。本工作的完整代码已开源,地址为:https://github.com/layer6ai-labs/ASL。
代码仓库
layer6ai-labs/ASL
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| weakly-supervised-action-localization-on-2 | ASL | Mean mAP: 25.8 mAP@0.5: 40.2 |
| weakly-supervised-action-localization-on-7 | ASL | mAP: 3.30 mAP IOU@0.5: 2.68 mAP IOU@0.75: 0.81 mAP IOU@0.95: 3.30 |