3 个月前

ACM-Net:用于弱监督时间动作定位的动作上下文建模网络

ACM-Net:用于弱监督时间动作定位的动作上下文建模网络

摘要

弱监督时序动作定位旨在仅利用视频级别标签,定位动作实例的时间边界并识别其对应的动作类别。传统方法主要依赖单一注意力分支和类别激活序列,专注于区分前景帧与背景帧。然而,我们认为除了明显的前景帧和背景帧之外,还存在大量语义上模糊的动作上下文帧。将这些上下文帧统一归为背景类别并不合理,因为它们在语义上与特定动作类别密切相关。因此,仅依靠单一类别激活序列难以有效抑制这些动作上下文帧。为解决这一问题,本文提出一种名为ACM-Net的动作上下文建模网络,该网络引入三分支注意力模块,能够同时衡量每个时间点属于动作实例、上下文或非动作背景的可能性。基于所获得的三分支注意力值,我们构建了三分支类别激活序列,分别用于表征动作实例、上下文信息以及非动作背景。为验证ACM-Net的有效性,我们在两个基准数据集THUMOS-14和ActivityNet-1.3上进行了大量实验。实验结果表明,所提方法显著优于当前主流的弱监督方法,甚至在性能上可与全监督方法相媲美。代码已开源,地址为:https://github.com/ispc-lab/ACM-Net。

代码仓库

mengyuanchen21/cvpr2022-ftcl
pytorch
GitHub 中提及
ispc-lab/ACM-Net
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
weakly-supervised-action-localization-onACM-Net
mAP@0.1:0.5: 53.2
mAP@0.1:0.7: 42.6
mAP@0.5: 34.6
weakly-supervised-action-localization-on-1ACM-Net
mAP@0.5: 40.1
mAP@0.5:0.95: 24.6
weakly-supervised-action-localization-on-4ACM-Net
mAP@0.5: 34.6
weakly-supervised-action-localization-on-5ACM-Net
avg-mAP (0.1-0.5): 53.2
avg-mAP (0.1:0.7): 42.6
avg-mAP (0.3-0.7): 33.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ACM-Net:用于弱监督时间动作定位的动作上下文建模网络 | 论文 | HyperAI超神经