
摘要
我们提出了一种用于真实场景视频中动作检测的多区域双流R-CNN模型。该方法基于Faster R-CNN [1]的帧级动作检测框架,并做出三项主要贡献:(1)我们证明了运动区域建议网络能够生成高质量的候选区域,其与外观区域建议网络生成的候选区域具有互补性;(2)我们表明,将多帧光流信息进行堆叠可显著提升帧级动作检测性能;(3)我们在Faster R-CNN模型中引入多区域机制,从而为身体各部位提供互补的上下文信息。随后,我们采用Viterbi算法将帧级检测结果进行时序关联,并利用最大子数组方法实现动作的时序定位。在UCF-Sports、J-HMDB和UCF101动作检测数据集上的实验结果表明,该方法在帧级mAP和视频级mAP两个指标上均显著优于当前最先进方法。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-detection-on-j-hmdb | MR-TS R-CNN | Frame-mAP 0.5: 58.5 Video-mAP 0.2: 74.3 Video-mAP 0.5: 73.09 |
| action-detection-on-j-hmdb | TS R-CNN | Frame-mAP 0.5: 56.9 Video-mAP 0.2: 71.1 Video-mAP 0.5: 70.6 |
| action-detection-on-ucf-sports | MR-TS R-CNN | Frame-mAP 0.5: 84.52 Video-mAP 0.2: 94.83 Video-mAP 0.5: 94.67 |
| action-detection-on-ucf-sports | TS R-CNN | Frame-mAP 0.5: 82.30 Video-mAP 0.2: 94.82 Video-mAP 0.5: 94.82 |
| action-detection-on-ucf101-24 | MR-TS R-CNN | Frame-mAP 0.5: 39.63 |
| action-detection-on-ucf101-24 | TS R-CNN | Frame-mAP 0.5: 39.94 |
| action-recognition-in-videos-on-ucf101 | MR Two-Sream R-CNN | 3-fold Accuracy: 91.1 |
| skeleton-based-action-recognition-on-j-hmdb | MR Two-Sream R-CNN | Accuracy (RGB+pose): 71.1 |