6 个月前

卷积神经网络

计算机视觉

Baifeng Shi Qi Dai Yadong Mu Jingdong Wang

摘要

弱监督时序动作定位（Weakly-supervised Temporal Action Localization）是指在仅提供视频级别动作标签的情况下，学习一个动作定位模型。现有的主流框架主要依赖于分类激活（classification activation），该方法通过注意力模型识别与动作相关的帧，并将其划分为不同类别。然而，此类方法容易引发动作-上下文混淆问题：由于上下文帧与特定动作类别具有较强的相关性，其往往被误判为动作帧。为解决该问题，本文提出一种基于条件变分自编码器（Conditional Variational Auto-Encoder, Conditional VAE）的建模方法，用于建模在帧注意力条件下与类别无关的帧级概率。基于观察到动作区域与上下文区域在特征表示层面存在显著差异，我们引入一个概率模型——条件VAE，以建模在给定注意力权重下每一帧的出现概率。通过最大化该条件概率关于注意力权重的值，能够有效区分动作帧与非动作帧。在THUMOS14和ActivityNet1.2数据集上的实验结果表明，所提方法在性能上具有明显优势，且在缓解动作-上下文混淆问题方面表现出良好效果。相关代码已开源，可于GitHub获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

卷积神经网络

计算机视觉

Baifeng Shi Qi Dai Yadong Mu Jingdong Wang

摘要

弱监督时序动作定位（Weakly-supervised Temporal Action Localization）是指在仅提供视频级别动作标签的情况下，学习一个动作定位模型。现有的主流框架主要依赖于分类激活（classification activation），该方法通过注意力模型识别与动作相关的帧，并将其划分为不同类别。然而，此类方法容易引发动作-上下文混淆问题：由于上下文帧与特定动作类别具有较强的相关性，其往往被误判为动作帧。为解决该问题，本文提出一种基于条件变分自编码器（Conditional Variational Auto-Encoder, Conditional VAE）的建模方法，用于建模在帧注意力条件下与类别无关的帧级概率。基于观察到动作区域与上下文区域在特征表示层面存在显著差异，我们引入一个概率模型——条件VAE，以建模在给定注意力权重下每一帧的出现概率。通过最大化该条件概率关于注意力权重的值，能够有效区分动作帧与非动作帧。在THUMOS14和ActivityNet1.2数据集上的实验结果表明，所提方法在性能上具有明显优势，且在缓解动作-上下文混淆问题方面表现出良好效果。相关代码已开源，可于GitHub获取。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

基于生成注意力建模的弱监督动作定位 | 论文 | HyperAI超神经