
摘要
空间-时间特征和运动特征是视频动作识别中的两种互补且至关重要的信息。近期的最先进方法采用了3D卷积神经网络(CNN)流来学习空间-时间特征,以及另一个光流流来学习运动特征。在本研究中,我们的目标是在统一的2D框架下高效地编码这两种特征。为此,我们首先提出了一种STM模块,该模块包含一个通道级空间-时间模块(Channel-wise SpatioTemporal Module, CSTM),用于表示空间-时间特征,以及一个通道级运动模块(Channel-wise Motion Module, CMM),用于高效编码运动特征。随后,我们在ResNet架构中用STM模块替换了原有的残差块,通过引入非常有限的额外计算成本,构建了一个简单而有效的STM网络。大量实验表明,在同时编码空间-时间特征和运动特征的帮助下,所提出的STM网络在时间相关数据集(如Something-Something v1 & v2和Jester)和场景相关数据集(如Kinetics-400、UCF-101和HMDB-51)上均优于现有的最先进方法。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-classification-on-kinetics-400 | STM (ResNet-50) | Acc@1: 73.7 |
| action-recognition-in-videos-on-hmdb-51-1 | STM (ImageNet+Kinetics pretrain) | Average accuracy of 3 splits: 72.2 |
| action-recognition-in-videos-on-jester-1 | STM (Resnet-50, 16 frames) | Val: 96.7 |
| action-recognition-in-videos-on-something-2 | STM (16 frames, ImageNet pretraining) | Top 1 Accuracy: 50.7 |
| action-recognition-in-videos-on-something-3 | STM (16 frames, ImageNet pretraining) | Top-1 Accuracy: 64.2 Top-5 Accuracy: 89.8 |
| action-recognition-in-videos-on-ucf101-2 | STM (ImageNet+Kinetics pretrain) | 3-fold Accuracy: 96.2 |