4 个月前

资源高效的3D卷积神经网络

资源高效的3D卷积神经网络

摘要

近年来,卷积神经网络中的3D卷积核(3D CNNs)由于其在视频帧中提取时空特征的能力优于2D CNNs,而在计算机视觉领域变得非常流行。尽管最近在考虑内存和功耗预算的情况下构建资源高效的2D CNN架构方面取得了显著进展,但针对3D CNNs的类似高效架构却鲜有研究。本文中,我们将多种已知的资源高效的2D CNN架构转换为3D CNN架构,并在三个主要基准数据集上评估了它们在不同复杂度水平下的分类准确性。我们进行了以下实验:(1) 在Kinetics-600数据集上检验这些模型的学习能力;(2) 在Jester数据集上检验它们捕捉运动模式的能力;(3) 在UCF-101数据集上检验迁移学习的适用性。我们还在单个Titan XP GPU和Jetson TX2嵌入式系统上评估了每个模型的运行时性能。本研究的结果表明,这些模型可以用于不同类型的实际应用,因为它们在提供实时性能的同时具有较高的准确性和较低的内存使用量。我们的分析显示,在设计资源高效的3D CNNs时,不应为了节省复杂度而设计得过于浅层或狭窄。本文所使用的代码和预训练模型均已公开发布。

代码仓库

ahmetgunduz/Real-time-GesRec
pytorch
GitHub 中提及
okankop/Efficient-3DCNNs
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
action-recognition-in-videos-on-jester-13D-ShuffleNetV2 0.25x
Val: 86.91
action-recognition-in-videos-on-jester-13D-SqueezeNet
Val: 90.77
action-recognition-in-videos-on-jester-13D-MobileNetV2 0.2x
Val: 86.43
action-recognition-in-videos-on-ucf101-23D-MobileNetV2 0.2x
3-fold Accuracy: 55.56
action-recognition-in-videos-on-ucf101-23D-ShuffleNetV2 0.25x
3-fold Accuracy: 56.52
action-recognition-in-videos-on-ucf101-23D-SqueezeNet
3-fold Accuracy: 74.94

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
资源高效的3D卷积神经网络 | 论文 | HyperAI超神经