4 个月前

学习时空表示的局部和全局扩散方法

学习时空表示的局部和全局扩散方法

摘要

卷积神经网络(CNN)一直被视为解决视觉识别问题的一类强大模型。然而,这些网络中的卷积滤波器是局部操作,忽略了长距离依赖关系。这一缺点在视频识别中尤为明显,因为视频是一种信息密集型媒体,具有复杂的时序变化。本文提出了一种新颖的框架,通过局部和全局扩散(LGD)来增强时空表示学习。具体而言,我们构建了一种新的神经网络架构,该架构并行学习局部和全局表示。该架构由LGD块组成,每个块通过建模这两种表示之间的扩散来更新局部和全局特征。扩散有效地交互了两种信息方面,即局部化信息和整体信息,从而实现更强大的表示学习方法。此外,引入了一种核化分类器来结合来自这两个方面的表示进行视频识别。我们的LGD网络在大规模Kinetics-400和Kinetics-600视频分类数据集上分别比最佳竞争对手提高了3.5%和0.7%的性能。我们进一步检验了预训练的LGD网络生成的全局和局部表示在四个不同的基准数据集上的泛化能力,用于视频动作识别和时空动作检测任务。实验结果表明,在这些基准数据集上,我们的方法优于几种最先进的技术。代码可在以下地址获取:https://github.com/ZhaofanQiu/local-and-global-diffusion-networks。

基准测试

基准方法指标
action-classification-on-kinetics-400LGD-3D Flow (ResNet-101)
Acc@1: 72.3
Acc@5: 90.9
action-classification-on-kinetics-400LGD-3D RGB (ResNet-101)
Acc@1: 79.4
Acc@5: 94.4
action-classification-on-kinetics-400LGD-3D Two-stream (ResNet-101)
Acc@1: 81.2
Acc@5: 95.2
action-classification-on-kinetics-600LGD-3D Flow
Top-1 Accuracy: 75
Top-5 Accuracy: 92.4
action-classification-on-kinetics-600LGD-3D RGB
Top-1 Accuracy: 81.5
Top-5 Accuracy: 95.6
action-classification-on-kinetics-600LGD-3D Two-stream
Top-1 Accuracy: 83.1
Top-5 Accuracy: 96.2
action-recognition-in-videos-on-hmdb-51LGD-3D Flow
Average accuracy of 3 splits: 78.9
action-recognition-in-videos-on-hmdb-51LGD-3D RGB
Average accuracy of 3 splits: 75.7
action-recognition-in-videos-on-hmdb-51LGD-3D Two-stream
Average accuracy of 3 splits: 80.5
action-recognition-in-videos-on-ucf101LGD-3D RGB
3-fold Accuracy: 97
action-recognition-in-videos-on-ucf101LGD-3D Two-stream
3-fold Accuracy: 98.2
action-recognition-in-videos-on-ucf101LGD-3D Flow
3-fold Accuracy: 96.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
学习时空表示的局部和全局扩散方法 | 论文 | HyperAI超神经