3 个月前

用于时序动作定位的多标签动作依赖建模

用于时序动作定位的多标签动作依赖建模

摘要

真实世界视频包含大量复杂动作,且动作类别之间存在内在关联。本文提出一种基于注意力机制的架构,用于建模这些动作关系,以解决未修剪视频中的时序动作定位任务。与以往依赖视频级动作共现关系的方法不同,我们区分了同一时间步发生的动作之间的关系,以及发生在不同时刻的动作之间的关系(即前后相继的动作)。我们将这些不同类型的关联定义为动作依赖关系。为此,我们提出在一种新颖的基于注意力的多标签动作依赖(Multi-Label Action Dependency, MLAD)模块中建模此类动作依赖,以提升动作定位性能。MLAD模块包含两个分支:共现依赖分支(Co-occurrence Dependency Branch)用于建模共现动作依赖,时序依赖分支(Temporal Dependency Branch)用于建模时序动作依赖。我们观察到,现有用于多标签分类的评估指标并未显式衡量动作依赖关系的建模效果,因此我们提出了新的评估指标,综合考虑动作类别之间的共现关系与时序依赖关系。通过实验验证与深入分析,我们在多标签动作定位基准数据集(MultiTHUMOS 和 Charades)上,不仅在 f-mAP 指标上优于现有最先进方法,也在我们提出的新型评估指标上展现出显著性能提升。

代码仓库

ptirupat/MLAD
官方
pytorch

基准测试

基准方法指标
action-detection-on-charadesMLAD (RGB + Flow)
mAP: 23.7
action-detection-on-multi-thumosMLAD
mAP: 51.5
temporal-action-localization-on-multithumos-1MLAD
Average mAP: 14.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于时序动作定位的多标签动作依赖建模 | 论文 | HyperAI超神经