
摘要
三维卷积神经网络(3DCNNs)已被应用于许多任务,例如视频和三维点云识别。然而,由于卷积核的维度较高,3DCNNs 的空间复杂度通常大于传统的二维卷积神经网络(2DCNNs)。为了在受限环境(如嵌入式设备)中部署 3DCNNs,神经网络压缩是一种有前景的方法。在这项工作中,我们采用了张量链(Tensor Train, TT)分解,这是一种简单且直接的原位训练压缩方法,来缩小 3DCNN 模型。通过提出将 3D 卷积核转换为 TT 格式的张量化方法,我们研究了如何选择合适的 TT 秩以实现更高的压缩比。我们还讨论了 3D 卷积核在压缩中的冗余性、这项工作的核心意义及未来方向,以及理论计算复杂度与实际执行时间之间的关系。基于 VIVA 挑战、UCF11 和 UCF101 数据集的多项对比实验表明,TT 分解可以在不显著损失精度的情况下将 3DCNNs 压缩约一百倍,这将使其能够在广泛的现实场景中得到应用。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| hand-gesture-recognition-on-shrec-2017-track | 3DCNN_VIVA_4 | 14 gestures accuracy: 73121216 |
| hand-gesture-recognition-on-viva-hand | 3DCNN_VIVA_1 | Accuracy-CN: 2303240 |
| hand-gesture-recognition-on-viva-hand | Two 3DCNNs: LRN + HRN [11] | Accuracy: 77.5 |
| hand-gesture-recognition-on-viva-hand | - | Accuracy: 6.86 |
| hand-gesture-recognition-on-viva-hand | 3DCNN_VIVA_2 | Accuracy-CN: -13585591 |
| quantization-on-cifar-10 | 3DCNN_VIVA_3 | MAP: 160327.04 |
| quantization-on-knowledge-based | 3DCNN_VIVA_5 | All: 84809664 |