
摘要
目前最先进的动作识别方法大多采用双流架构结合3D卷积:一为处理RGB帧的外观流,另一为处理光流帧的运动流。尽管融合光流与RGB信息能够提升性能,但精确计算光流的开销较大,显著增加了动作识别的延迟,限制了双流方法在实际应用中对低延迟有严格要求场景的使用。本文提出两种学习策略,用于训练一个标准的3D卷积神经网络(CNN),该网络仅基于RGB帧进行操作,但能够模拟运动流的表征能力,从而在测试阶段无需计算光流。首先,通过最小化与光流流之间的特征级损失,我们证明网络能够以高保真度重现运动流的特征表达。其次,为更有效地融合外观与运动信息,我们采用特征损失与标准交叉熵损失的线性组合进行联合训练。将采用该联合损失训练得到的流称为“运动增强型RGB流”(Motion-Augmented RGB Stream, MARS)。作为单一流架构,MARS在性能上优于单独使用RGB或光流的流:例如在Kinetics数据集上,MARS达到72.7%的准确率,显著高于仅使用RGB流的72.0%和仅使用光流流的65.6%。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-classification-on-kinetics-400 | MARS+RGB+Flow (64 frames) | Acc@1: 74.9 |
| action-classification-on-kinetics-400 | MARS+RGB+Flow (16 frames) | Acc@1: 68.9 |
| action-classification-on-minikinetics | MARS+RGB+Flow (16 frames) | Top-1 Accuracy: 73.5 |
| action-recognition-in-videos-on-hmdb-51 | MARS+RGB+FLow (64 frames, Kinetics pretrained) | Average accuracy of 3 splits: 80.9 |
| action-recognition-in-videos-on-something-1 | MARS+RGB+Flow (16 frames, Kinetics pretrained) | Top 1 Accuracy: 40.4 |
| action-recognition-in-videos-on-something-1 | MARS+RGB+Flow (64 frames, Kinetics pretrained) | Top 1 Accuracy: 53.0 |
| action-recognition-in-videos-on-ucf101 | MARS+RGB+Flow (64 frames, Kinetics pretrained) | 3-fold Accuracy: 97.8 |
| action-recognition-in-videos-on-ucf101 | MARS+RGB+Flow (16 frames) | 3-fold Accuracy: 95.8 |