
摘要
我们提出了一种简单而有效的方法,利用在大规模监督视频数据集上训练的深度三维卷积神经网络(3D ConvNets)进行时空特征学习。我们的研究结果有三个方面:1) 相比于二维卷积神经网络(2D ConvNets),三维卷积神经网络更适合进行时空特征学习;2) 具有所有层均使用小的3x3x3卷积核的同质架构是表现最佳的三维卷积神经网络架构之一;3) 我们学到的特征,即C3D(Convolutional 3D),结合简单的线性分类器,在四个不同的基准测试中超过了现有方法,并在另外两个基准测试中与当前最佳方法相当。此外,这些特征非常紧凑:仅用10个维度就能在UCF101数据集上达到52.8%的准确率,并且由于卷积神经网络的快速推理能力,计算效率也非常高。最后,这些特征在概念上非常简单,易于训练和使用。
代码仓库
AKASH2907/Content-based-Video-Recommendation
tf
GitHub 中提及
facebookarchive/C3D
官方
caffe2
scouTT1/C3D
mindspore
aj9011/Car-Speed-Prediction
pytorch
GitHub 中提及
labs12/Action-Recgontion-
pytorch
GitHub 中提及
HardyYoungX/C3D
mindspore
MekkaSiekka/C3D-UCF11-Tensorflow
tf
GitHub 中提及
mamtajha-ts/gesture-recognition
GitHub 中提及
waynshang/Gesture-Recognition-with-3DCNN
GitHub 中提及
2024-MindSpore-1/Code6/tree/main/C3D
mindspore
MichiganCOG/M-PACT
tf
GitHub 中提及
MarkoLewis-Projects/Sign_language_detection
tf
GitHub 中提及
aim3-ruc/youmakeup_challenge2022
pytorch
GitHub 中提及
leftthomas/r2plus1d-c3d
pytorch
GitHub 中提及
coderSkyChen/Action_Recognition_Zoo
tf
GitHub 中提及
ZJUT-ERCISS/c3d_mindspore
mindspore
open-mmlab/mmaction2
pytorch
myaldiz/deep_violence_detection
tf
GitHub 中提及
axon-research/c3d-keras
caffe2
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-recognition-in-videos-on-hmdb-51 | C3D | Average accuracy of 3 splits: 51.6 |
| action-recognition-in-videos-on-sports-1m | C3D | Clip Hit@1: 46.1 Video hit@1 : 61.1 Video hit@5: 85.5 |
| action-recognition-in-videos-on-ucf101 | C3D | 3-fold Accuracy: 82.3 |