
摘要
弱监督时序动作定位旨在仅使用视频级别的动作标签进行训练,识别并定位未剪辑视频中的动作片段。由于缺乏动作片段的边界信息,现有方法大多依赖于多实例学习(Multiple Instance Learning, MIL),即通过将已标注的“包”(即未剪辑视频)进行分类,来监督未标注的“实例”(即视频片段)的预测。然而,这种范式通常将视频中的片段视为相互独立的实例,忽视了动作片段内部及跨片段之间的潜在时序结构。为解决这一问题,本文提出 \system,一种新型的弱监督时序动作定位(WTAL)框架,能够在标准MIL方法的基础上,实现显式的、动作感知的片段建模。该框架包含三个以片段为中心的核心组件:(i)动态片段采样机制,用于补偿短时动作的贡献;(ii)片段内与片段间注意力机制,用于建模动作动态并捕捉时序依赖关系;(iii)伪实例级监督机制,用于提升动作边界的预测精度。此外,本文还提出一种多阶段精炼策略,在模型训练过程中逐步优化动作提议。在THUMOS-14和ActivityNet-v1.3数据集上的大量实验表明,所提方法具有显著有效性,并在两个数据集上均取得了新的SOTA(State-of-the-Art)性能。相关代码与模型已公开发布于~\url{https://github.com/boheumd/ASM-Loc}。
代码仓库
boheumd/asm-loc
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| weakly-supervised-action-localization-on | ASM-Loc | mAP@0.1:0.7: 45.1 mAP@0.5: 36.6 |
| weakly-supervised-action-localization-on-1 | ASM-Loc | mAP@0.5: 41 mAP@0.5:0.95: 25.1 |