3 个月前

基于生成注意力建模的弱监督动作定位

基于生成注意力建模的弱监督动作定位

摘要

弱监督时序动作定位(Weakly-supervised Temporal Action Localization)是指在仅提供视频级别动作标签的情况下,学习一个动作定位模型。现有的主流框架主要依赖于分类激活(classification activation),该方法通过注意力模型识别与动作相关的帧,并将其划分为不同类别。然而,此类方法容易引发动作-上下文混淆问题:由于上下文帧与特定动作类别具有较强的相关性,其往往被误判为动作帧。为解决该问题,本文提出一种基于条件变分自编码器(Conditional Variational Auto-Encoder, Conditional VAE)的建模方法,用于建模在帧注意力条件下与类别无关的帧级概率。基于观察到动作区域与上下文区域在特征表示层面存在显著差异,我们引入一个概率模型——条件VAE,以建模在给定注意力权重下每一帧的出现概率。通过最大化该条件概率关于注意力权重的值,能够有效区分动作帧与非动作帧。在THUMOS14和ActivityNet1.2数据集上的实验结果表明,所提方法在性能上具有明显优势,且在缓解动作-上下文混淆问题方面表现出良好效果。相关代码已开源,可于GitHub获取。

代码仓库

基准测试

基准方法指标
weakly-supervised-action-localization-onDGAM
mAP@0.1:0.5: 45.6
mAP@0.1:0.7: 37.0
mAP@0.5: 28.8
weakly-supervised-action-localization-on-2DGAM
Mean mAP: 24.4
mAP@0.5: 41.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于生成注意力建模的弱监督动作定位 | 论文 | HyperAI超神经