
摘要
深度卷积网络在静态图像的视觉识别任务中取得了巨大成功。然而,在视频动作识别任务中,其相对于传统方法的优势并不十分明显。本文旨在探索设计高效卷积神经网络(ConvNet)架构以实现视频动作识别的基本原理,并在训练样本有限的情况下学习此类模型。我们的首个贡献是提出一种名为时序片段网络(Temporal Segment Network, TSN)的新框架,用于基于视频的动作识别。该框架基于长时程时间结构建模的思想,结合稀疏的时间采样策略与视频级监督机制,从而能够高效且有效地利用完整的动作视频进行学习。另一项贡献是借助TSN框架,对在视频数据上训练ConvNet的一系列良好实践进行了系统研究。所提出的方法在HMDB51(69.4%)和UCF101(94.2%)两个数据集上均取得了当时最先进的性能表现。此外,我们还对学习到的ConvNet模型进行了可视化分析,定性地验证了时序片段网络及所提出良好实践的有效性。
代码仓库
WavesUR/embedded_TSM
pytorch
GitHub 中提及
yjxiong/temporal-segment-networks
官方
pytorch
GitHub 中提及
sunutf/TSM
pytorch
GitHub 中提及
iamhoushiyou/tsn
pytorch
GitHub 中提及
ZJCV/TSN
pytorch
GitHub 中提及
ZJCV/Non-local
pytorch
GitHub 中提及
Nortinwell/TSN
pytorch
GitHub 中提及
rijuldhir/TSM
pytorch
GitHub 中提及
MichiganCOG/M-PACT
tf
GitHub 中提及
MIT-HAN-LAB/temporal-shift-module
pytorch
GitHub 中提及
CrazySherman/goodlife
pytorch
GitHub 中提及
damien911224/theWorldInSafety
GitHub 中提及
mtlouie-unm/alome-tsn
pytorch
GitHub 中提及
open-mmlab/mmaction2
pytorch
nhannguyen2709/video_recognition
pytorch
GitHub 中提及
yjxiong/caffe
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-classification-on-kinetics-400 | TSN | Acc@1: 73.9 Acc@5: 91.1 |
| action-recognition-in-videos-on-hmdb-51 | Temporal Segment Networks | Average accuracy of 3 splits: 69.4 |
| action-recognition-in-videos-on-ucf101 | Temporal Segment Networks | 3-fold Accuracy: 94.2 |
| multimodal-activity-recognition-on-ev-action | TSN (RGB) | Accuracy: 73.6 |