3 个月前

全局协方差池化在细粒度视觉识别中的特征值分析

全局协方差池化在细粒度视觉识别中的特征值分析

摘要

细粒度视觉分类(Fine-Grained Visual Categorization, FGVC)之所以具有挑战性,是因为类别间的细微差异难以捕捉。一种重要的研究方向是采用全局协方差池化(Global Covariance Pooling, GCP)层,通过学习二阶统计特征来获取强大的表示能力,从而有效建模类别之间的差异。在我们之前的会议论文中,我们发现对GCP协方差矩阵的小特征值进行截断,能够获得更平滑的梯度,并提升在大规模基准数据集上的性能。然而,在细粒度数据集上,截断小特征值反而会导致模型无法收敛。这一现象与普遍假设相矛盾:即小特征值仅对应噪声或无关信息,忽略它们对模型性能应影响甚微。为深入诊断这一异常行为,我们提出了两种归因分析方法,其可视化结果表明,看似不重要的小特征值实际上至关重要——它们负责提取具有判别性的类别特异性特征。受此启发,我们设计了一种专用网络分支,旨在增强小特征值的重要性。该分支无需引入任何额外参数,仅通过放大小特征值即可显著提升GCP方法在三个细粒度分类基准上的性能,达到当前最优水平。此外,在更大规模的数据集上,该方法的性能也具备与其它先进FGVC方法相媲美的竞争力。代码已开源,可通过以下链接获取:https://github.com/KingJamesSong/DifferentiableSVD

代码仓库

KingJamesSong/DifferentiableSVD
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
fine-grained-image-classification-on-fgvcSEB+EfficientNet-B5
Accuracy: 93.5
fine-grained-image-classification-on-stanfordSEB+EfficientNet-B5
Accuracy: 94.6%
fine-grained-image-classification-on-stanford-1SEB+EfficientNet-B5
Accuracy: 93.0%
image-classification-on-inaturalistSEB+EfficientNet-B5
Top 1 Accuracy: 72.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
全局协方差池化在细粒度视觉识别中的特征值分析 | 论文 | HyperAI超神经