
摘要
真实世界视频包含大量复杂动作,且动作类别之间存在内在关联。本文提出一种基于注意力机制的架构,用于建模这些动作关系,以解决未修剪视频中的时序动作定位任务。与以往依赖视频级动作共现关系的方法不同,我们区分了同一时间步发生的动作之间的关系,以及发生在不同时刻的动作之间的关系(即前后相继的动作)。我们将这些不同类型的关联定义为动作依赖关系。为此,我们提出在一种新颖的基于注意力的多标签动作依赖(Multi-Label Action Dependency, MLAD)模块中建模此类动作依赖,以提升动作定位性能。MLAD模块包含两个分支:共现依赖分支(Co-occurrence Dependency Branch)用于建模共现动作依赖,时序依赖分支(Temporal Dependency Branch)用于建模时序动作依赖。我们观察到,现有用于多标签分类的评估指标并未显式衡量动作依赖关系的建模效果,因此我们提出了新的评估指标,综合考虑动作类别之间的共现关系与时序依赖关系。通过实验验证与深入分析,我们在多标签动作定位基准数据集(MultiTHUMOS 和 Charades)上,不仅在 f-mAP 指标上优于现有最先进方法,也在我们提出的新型评估指标上展现出显著性能提升。
代码仓库
ptirupat/MLAD
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-detection-on-charades | MLAD (RGB + Flow) | mAP: 23.7 |
| action-detection-on-multi-thumos | MLAD | mAP: 51.5 |
| temporal-action-localization-on-multithumos-1 | MLAD | Average mAP: 14.2 |