6 个月前

摘要

细粒度视觉分类（Fine-Grained Visual Categorization, FGVC）之所以具有挑战性，是因为类别间的细微差异难以捕捉。一种重要的研究方向是采用全局协方差池化（Global Covariance Pooling, GCP）层，通过学习二阶统计特征来获取强大的表示能力，从而有效建模类别之间的差异。在我们之前的会议论文中，我们发现对GCP协方差矩阵的小特征值进行截断，能够获得更平滑的梯度，并提升在大规模基准数据集上的性能。然而，在细粒度数据集上，截断小特征值反而会导致模型无法收敛。这一现象与普遍假设相矛盾：即小特征值仅对应噪声或无关信息，忽略它们对模型性能应影响甚微。为深入诊断这一异常行为，我们提出了两种归因分析方法，其可视化结果表明，看似不重要的小特征值实际上至关重要——它们负责提取具有判别性的类别特异性特征。受此启发，我们设计了一种专用网络分支，旨在增强小特征值的重要性。该分支无需引入任何额外参数，仅通过放大小特征值即可显著提升GCP方法在三个细粒度分类基准上的性能，达到当前最优水平。此外，在更大规模的数据集上，该方法的性能也具备与其它先进FGVC方法相媲美的竞争力。代码已开源，可通过以下链接获取：https://github.com/KingJamesSong/DifferentiableSVD

源 PDF