3 个月前

多区域双流R-CNN用于动作检测

多区域双流R-CNN用于动作检测

摘要

我们提出了一种用于真实场景视频中动作检测的多区域双流R-CNN模型。该方法基于Faster R-CNN [1]的帧级动作检测框架,并做出三项主要贡献:(1)我们证明了运动区域建议网络能够生成高质量的候选区域,其与外观区域建议网络生成的候选区域具有互补性;(2)我们表明,将多帧光流信息进行堆叠可显著提升帧级动作检测性能;(3)我们在Faster R-CNN模型中引入多区域机制,从而为身体各部位提供互补的上下文信息。随后,我们采用Viterbi算法将帧级检测结果进行时序关联,并利用最大子数组方法实现动作的时序定位。在UCF-Sports、J-HMDB和UCF101动作检测数据集上的实验结果表明,该方法在帧级mAP和视频级mAP两个指标上均显著优于当前最先进方法。

基准测试

基准方法指标
action-detection-on-j-hmdbMR-TS R-CNN
Frame-mAP 0.5: 58.5
Video-mAP 0.2: 74.3
Video-mAP 0.5: 73.09
action-detection-on-j-hmdbTS R-CNN
Frame-mAP 0.5: 56.9
Video-mAP 0.2: 71.1
Video-mAP 0.5: 70.6
action-detection-on-ucf-sportsMR-TS R-CNN
Frame-mAP 0.5: 84.52
Video-mAP 0.2: 94.83
Video-mAP 0.5: 94.67
action-detection-on-ucf-sportsTS R-CNN
Frame-mAP 0.5: 82.30
Video-mAP 0.2: 94.82
Video-mAP 0.5: 94.82
action-detection-on-ucf101-24MR-TS R-CNN
Frame-mAP 0.5: 39.63
action-detection-on-ucf101-24TS R-CNN
Frame-mAP 0.5: 39.94
action-recognition-in-videos-on-ucf101MR Two-Sream R-CNN
3-fold Accuracy: 91.1
skeleton-based-action-recognition-on-j-hmdbMR Two-Sream R-CNN
Accuracy (RGB+pose): 71.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
多区域双流R-CNN用于动作检测 | 论文 | HyperAI超神经