
摘要
在卷积神经网络中,全局协方差池化已经取得了比经典一阶池化方法更为显著的改进。近期的研究表明,矩阵平方根归一化在实现最先进性能方面起着核心作用。然而,现有的方法严重依赖于特征分解(EIG)或奇异值分解(SVD),由于GPU对EIG和SVD的支持有限,导致训练效率低下。为了解决这一问题,我们提出了一种迭代矩阵平方根归一化方法,以实现全局协方差池化网络的快速端到端训练。该方法的核心是一个设计为循环嵌入有向图结构的元层。元层由三个连续的非线性结构层组成,分别执行预归一化、耦合矩阵迭代和后补偿。我们的方法比基于EIG或SVD的方法快得多,因为它仅涉及矩阵乘法,适合在GPU上进行并行实现。此外,采用ResNet架构的所提网络可以在更少的轮次内收敛,进一步加速了网络训练。在大规模ImageNet数据集上,我们实现了优于现有方法的竞争性性能。通过微调我们在ImageNet上预训练的模型,我们在三个具有挑战性的细粒度基准测试中建立了最先进结果。源代码和网络模型将在http://www.peihuali.org/iSQRT-COV提供。
代码仓库
jianshen92/stanford-car-grab-challenge
pytorch
GitHub 中提及
jiangtaoxie/fast-MPN-COV
官方
pytorch
osmr/imgclsmob
mxnet
GitHub 中提及
OrkhanHI/Grab-AI-Computer-Vision-Challenge
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| fine-grained-image-classification-on-cub-200 | MPN-COV | Accuracy: 88.7% |
| fine-grained-image-classification-on-cub-200-1 | MPN-COV | Accuracy: 88.7 |
| fine-grained-image-classification-on-fgvc | MPN-COV | Accuracy: 91.4% |
| fine-grained-image-classification-on-stanford | MPN-COV | Accuracy: 93.3% |