
摘要
卷积神经网络(CNN)一直被视为解决视觉识别问题的一类强大模型。然而,这些网络中的卷积滤波器是局部操作,忽略了长距离依赖关系。这一缺点在视频识别中尤为明显,因为视频是一种信息密集型媒体,具有复杂的时序变化。本文提出了一种新颖的框架,通过局部和全局扩散(LGD)来增强时空表示学习。具体而言,我们构建了一种新的神经网络架构,该架构并行学习局部和全局表示。该架构由LGD块组成,每个块通过建模这两种表示之间的扩散来更新局部和全局特征。扩散有效地交互了两种信息方面,即局部化信息和整体信息,从而实现更强大的表示学习方法。此外,引入了一种核化分类器来结合来自这两个方面的表示进行视频识别。我们的LGD网络在大规模Kinetics-400和Kinetics-600视频分类数据集上分别比最佳竞争对手提高了3.5%和0.7%的性能。我们进一步检验了预训练的LGD网络生成的全局和局部表示在四个不同的基准数据集上的泛化能力,用于视频动作识别和时空动作检测任务。实验结果表明,在这些基准数据集上,我们的方法优于几种最先进的技术。代码可在以下地址获取:https://github.com/ZhaofanQiu/local-and-global-diffusion-networks。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| action-classification-on-kinetics-400 | LGD-3D Flow (ResNet-101) | Acc@1: 72.3 Acc@5: 90.9 |
| action-classification-on-kinetics-400 | LGD-3D RGB (ResNet-101) | Acc@1: 79.4 Acc@5: 94.4 |
| action-classification-on-kinetics-400 | LGD-3D Two-stream (ResNet-101) | Acc@1: 81.2 Acc@5: 95.2 |
| action-classification-on-kinetics-600 | LGD-3D Flow | Top-1 Accuracy: 75 Top-5 Accuracy: 92.4 |
| action-classification-on-kinetics-600 | LGD-3D RGB | Top-1 Accuracy: 81.5 Top-5 Accuracy: 95.6 |
| action-classification-on-kinetics-600 | LGD-3D Two-stream | Top-1 Accuracy: 83.1 Top-5 Accuracy: 96.2 |
| action-recognition-in-videos-on-hmdb-51 | LGD-3D Flow | Average accuracy of 3 splits: 78.9 |
| action-recognition-in-videos-on-hmdb-51 | LGD-3D RGB | Average accuracy of 3 splits: 75.7 |
| action-recognition-in-videos-on-hmdb-51 | LGD-3D Two-stream | Average accuracy of 3 splits: 80.5 |
| action-recognition-in-videos-on-ucf101 | LGD-3D RGB | 3-fold Accuracy: 97 |
| action-recognition-in-videos-on-ucf101 | LGD-3D Two-stream | 3-fold Accuracy: 98.2 |
| action-recognition-in-videos-on-ucf101 | LGD-3D Flow | 3-fold Accuracy: 96.8 |