
摘要
我们研究了视频中的动作检测问题。借鉴二维图像中物体检测的最新进展,我们利用从形状和运动线索派生出的丰富特征层次构建动作模型。我们通过两种方式结合外观和运动信息。首先,从图像区域建议开始,我们选择那些运动显著的区域,这些区域更有可能包含动作。这大大减少了需要处理的区域数量,从而加快了计算速度。其次,我们提取时空特征表示,利用卷积神经网络构建强大的分类器。我们将预测结果连接起来,生成时间上一致的动作检测结果,称为“动作管”。实验表明,我们的方法在动作检测任务中优于其他技术。
代码仓库
JeffCHEN2017/WSSTG
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-detection-on-j-hmdb | Action Tubes | Frame-mAP 0.5: 36.2 Video-mAP 0.5: 53.3 |
| action-detection-on-ucf-sports | Action Tubes | Frame-mAP 0.5: 68.1 Video-mAP 0.5: 75.8 |
| skeleton-based-action-recognition-on-j-hmdb | Action Tubes | Accuracy (RGB+pose): 62.5 |