4 个月前

基于提案的弱监督时序动作定位的多实例学习

基于提案的弱监督时序动作定位的多实例学习

摘要

弱监督时序动作定位的目标是在训练过程中仅使用视频级别的类别标签来定位和识别未剪辑视频中的动作。由于缺乏实例级别的注释,大多数现有方法遵循基于片段的多实例学习(S-MIL)框架,其中片段的预测由视频的标签进行监督。然而,训练阶段获取片段级别分数的目标与测试阶段获取提案级别分数的目标不一致,导致结果次优。为了解决这一问题,我们提出了一种新颖的基于提案的多实例学习(P-MIL)框架,在训练和测试阶段直接对候选提案进行分类,该框架包括三个关键设计:1) 一个周边对比特征提取模块,通过考虑周边对比信息来抑制判别力较弱的短提案;2) 一个提案完整性评估模块,在完整性伪标签的指导下抑制低质量提案;3) 一个实例级别排名一致性损失,通过利用RGB和FLOW模态的互补性实现鲁棒检测。在两个具有挑战性的基准数据集THUMOS14和ActivityNet上的大量实验结果证明了我们方法的优越性能。

代码仓库

RenHuan1999/CVPR2023_P-MIL
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
weakly-supervised-action-localization-onP-MIL
mAP@0.1:0.5: 57.4
mAP@0.1:0.7: 47.0
mAP@0.5: 40.0
weakly-supervised-action-localization-on-1P-MIL
mAP@0.5: 41.8
mAP@0.5:0.95: 25.5
weakly-supervised-action-localization-on-2P-MIL
Mean mAP: 26.5
mAP@0.5: 44.2
weakly-supervised-action-localization-on-4P-MIL
mAP@0.5: 40.0
weakly-supervised-action-localization-on-5P-MIL
avg-mAP (0.1-0.5): 57.4
avg-mAP (0.1:0.7): 47.0
avg-mAP (0.3-0.7): 38.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于提案的弱监督时序动作定位的多实例学习 | 论文 | HyperAI超神经