
摘要
深度学习在图像分类和目标检测方面已经证明能够取得优异的结果。然而,由于视频数据的复杂性和注释的缺乏,深度学习对视频分析(如动作检测和识别)的影响一直有限。以往基于卷积神经网络(CNN)的视频动作检测方法通常包括两个主要步骤:帧级动作提案检测和跨帧提案关联。此外,这些方法采用双流CNN框架分别处理空间和时间特征。本文提出了一种用于视频中动作检测的端到端深度网络,称为Tube Convolutional Neural Network(T-CNN)。所提出的架构是一个统一的网络,能够基于3D卷积特征识别和定位动作。首先,将视频分成等长的片段,然后根据3D卷积网络(ConvNet)特征为每个片段生成一组管状提案。最后,通过网络流算法将不同片段的管状提案连接起来,并利用这些链接的视频提案进行时空动作检测。在多个视频数据集上的大量实验表明,与现有最先进方法相比,T-CNN在修剪和未修剪视频的动作分类和定位方面表现出色。
代码仓库
cyberpunk317/Action_detection
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-detection-on-j-hmdb | T-CNN | Frame-mAP 0.5: 61.3 Video-mAP 0.2: 78.4 Video-mAP 0.5: 76.9 |
| action-detection-on-ucf-sports | T-CNN | Frame-mAP 0.5: 86.7 |
| action-detection-on-ucf101-24 | T-CNN | Frame-mAP 0.5: 41.37 Video-mAP 0.1: 51.3 Video-mAP 0.2: 47.1 |