
摘要
在未剪辑视频中检测动作是一项重要而具有挑战性的任务。本文提出了一种新颖的框架——结构化片段网络(Structured Segment Network, SSN),该框架通过结构化时间金字塔对每个动作实例的时间结构进行建模。在此基础上,我们进一步引入了一个分解的判别模型,该模型由两个分类器组成,分别用于动作分类和完整性判断。这使得框架能够有效地将正向提案与背景或不完整的提案区分开来,从而实现准确的动作识别和定位。这些组件被整合到一个统一的网络中,可以高效地进行端到端训练。此外,我们设计了一种简单而有效的时间动作提案方案,称为时间动作性分组(Temporal Actionness Grouping, TAG),以生成高质量的动作提案。在两个具有挑战性的基准数据集THUMOS14和ActivityNet上,我们的方法显著优于以往的最先进方法,展示了处理各种时间结构动作的卓越准确性和强大的适应性。
代码仓库
yjxiong/action-detection
pytorch
GitHub 中提及
Lechatelia/SSN
pytorch
GitHub 中提及
happygds/two_level
pytorch
GitHub 中提及
open-mmlab/mmaction
官方
pytorch
Mind23-2/MindCode-87
mindspore
open-mmlab/mmaction2
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-recognition-in-videos-on-thumos14 | SSN | mAP@0.1: 66.0 mAP@0.2: 59.4 mAP@0.3: 51.9 mAP@0.4: 41.0 mAP@0.5: 29.8 |