
摘要
运动在视频理解中已被证明是有用的,其中运动通常由光流表示。然而,从视频帧中计算光流非常耗时。近期的研究直接利用压缩视频中现成的运动向量和残差来表示运动,无需额外成本。虽然这种方法避免了光流计算,但也会降低准确性,因为运动向量存在噪声且分辨率显著降低,这使得它成为一种区分度较低的运动表示方法。为了解决这些问题,我们提出了一种轻量级生成网络,该网络可以减少运动向量中的噪声并捕捉精细的运动细节,从而实现更具区分性的运动线索(Discriminative Motion Cue, DMC)表示。由于光流是一种更为准确的运动表示方法,我们训练DMC生成器使用重建损失和生成对抗损失来近似光流,并与下游的动作分类任务联合进行。在三个动作识别基准数据集(HMDB-51、UCF-101 和 Kinetics 的一个子集)上的广泛评估证实了我们方法的有效性。我们的完整系统包括生成器和分类器,被称为DMC-Net,在推理时其准确率接近使用光流的方法,并且运行速度比使用光流快两个数量级。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-recognition-in-videos-on-hmdb-51 | DMC-Net (ResNet-18) | Average accuracy of 3 splits: 62.8 |
| action-recognition-in-videos-on-hmdb-51 | DMC-Net (I3D) | Average accuracy of 3 splits: 71.8 |
| action-recognition-in-videos-on-hmdb-51 | I3D RGB + DMC-Net (I3D) | Average accuracy of 3 splits: 77.8 |
| action-recognition-in-videos-on-ucf-101 | DMC-Net (ResNet-18) | 3-fold Accuracy: 90.9 |
| action-recognition-in-videos-on-ucf101 | I3D RGB + DMC-Net (I3D) | 3-fold Accuracy: 96.5 |
| action-recognition-in-videos-on-ucf101 | DMC-Net (I3D) | 3-fold Accuracy: 92.3 |