
摘要
本文研究了时间动作定位(Temporal Action Localization, TAL)任务中一种中间形式的监督方式——单帧监督(single-frame supervision)。在该设定下,标注人员仅需在动作的时间窗口内标注一个关键帧,而非完整标注动作的起止边界。这种策略可显著降低获取全监督信息所需的人工标注成本。相较于仅标注视频级别标签的弱监督方法,单帧监督在保持较低标注开销的同时,引入了额外的时间动作信号,从而提升了监督信息的丰富性。为充分挖掘单帧监督的潜力,本文提出了一种统一的框架——SF-Net。首先,我们设计了一种方法,对视频中的每一帧预测一个动作存在性得分(actionness score)。该得分与传统的类别得分相结合,能够全面反映潜在动作的发生情况,并在推理阶段有效辅助时间边界的精炼。其次,基于单帧标注结果,我们进一步挖掘伪动作帧和伪背景帧:通过自适应地将每个标注的单帧向其邻近的上下文帧扩展,识别出伪动作帧;同时,从多视频中所有未标注的帧中挖掘伪背景帧。这些伪标签帧与真实标注帧共同构成训练数据,用于分类器的训练。在THUMOS14、GTEA和BEOID等多个数据集上的大量实验表明,SF-Net在段落定位与单帧定位两个任务上均显著优于当前最先进的弱监督方法。尤为突出的是,SF-Net的性能可与需要大量高成本标注的全监督方法相媲美。代码已开源,地址为:https://github.com/Flowerfan/SF-Net。
代码仓库
Flowerfan/SF-Net
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| weakly-supervised-action-localization-on | SF-Net | mAP@0.1:0.5: 51.2 mAP@0.1:0.7: 41.2 mAP@0.5: 30.5 |
| weakly-supervised-action-localization-on-2 | SF-Net | Mean mAP: 22.8 mAP@0.5: 37.8 |
| weakly-supervised-action-localization-on-6 | SF-Net | mAP@0.1:0.7: 30.1 mAP@0.5: 16.7 |
| weakly-supervised-action-localization-on-gtea | SF-Net | mAP@0.1:0.7: 31.0 mAP@0.5: 19.3 |