3 个月前

用于弱监督时序动作定位的双流共识网络

用于弱监督时序动作定位的双流共识网络

摘要

弱监督时间动作定位(Weakly-supervised Temporal Action Localization, W-TAL)旨在仅依赖视频级别标签,对未剪辑视频中的所有动作实例进行分类与定位。然而,在缺乏帧级标注的情况下,现有W-TAL方法难以有效识别误检的动作提议(false positive action proposals),并生成具有精确时间边界的动作提议。针对这一挑战,本文提出一种双流共识网络(Two-Stream Consensus Network, TSCN),以协同解决上述问题。所提出的TSCN采用一种迭代精炼训练机制,通过迭代更新帧级伪真实标签(pseudo ground truth),为模型提供帧级监督信号,从而提升模型训练效果,并有效消除误检的动作提议。此外,本文还提出一种新型注意力归一化损失(attention normalization loss),旨在促使模型预测的注意力权重呈现二值化选择特性,进而促进动作实例时间边界的精确定位。在THUMOS14与ActivityNet数据集上的实验结果表明,所提出的TSCN显著优于当前主流的弱监督方法,甚至在部分指标上达到了与近期一些全监督方法相当的性能。

基准测试

基准方法指标
weakly-supervised-action-localization-on-5TSCN
avg-mAP (0.1-0.5): 47.0
avg-mAP (0.1:0.7): 37.8
avg-mAP (0.3-0.7): 28.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于弱监督时序动作定位的双流共识网络 | 论文 | HyperAI超神经