
摘要
弱监督时序动作定位是一个极具挑战性的问题,因为在训练阶段并未提供逐帧标签,仅依赖视频级别的标签作为唯一线索——即判断每段视频是否包含目标动作帧。以往的方法通常通过聚合帧级别的分类得分来生成视频级别的预测,并基于视频级别的动作标签进行学习。然而,这种建模方式存在局限性:为了准确预测视频级别的标签,模型不得不将背景帧错误地分类为动作类别,从而未能充分反映实际问题的本质。本文提出了一种名为背景抑制网络(Background Suppression Network, BaS-Net)的新方法,该网络引入了一个专门的背景辅助类别,并采用双分支共享权重的架构,配合非对称训练策略。这一设计使 BaS-Net 能够有效抑制来自背景帧的激活响应,从而显著提升动作定位的准确性。大量实验结果表明,BaS-Net 在最主流的两个基准数据集——THUMOS'14 和 ActivityNet 上均表现出色,优于当前最先进的方法。本文的代码与训练好的模型已开源,地址为:https://github.com/Pilhyeon/BaSNet-pytorch。
代码仓库
Pilhyeon/BaSNet-pytorch
官方
pytorch
GitHub 中提及
Pilhyeon/Learning-Action-Completeness-from-Points
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| weakly-supervised-action-localization-on | BaS-Net | mAP@0.1:0.5: 43.6 mAP@0.1:0.7: 35.3 mAP@0.5: 27 |
| weakly-supervised-action-localization-on-1 | BaS-Net | mAP@0.5: 34.5 mAP@0.5:0.95: 22.2 |
| weakly-supervised-action-localization-on-2 | BaS-Net | mAP@0.5: 38.5 |
| weakly-supervised-action-localization-on-4 | BasNet | mAP@0.5: 27.0 |