6 个月前

摘要

细粒度视觉分类（Fine-grained Visual Classification, FGVC）具有重要价值，但同时也面临巨大挑战。FGVC的难点主要源于类别间固有的高相似性、类内显著的变异以及训练数据的有限性。此外，随着深度卷积神经网络（CNN）的广泛应用，研究者普遍依赖深层网络提取的抽象语义信息进行分类，而对浅层网络中蕴含的细粒度、局部细节信息则被忽视。针对上述问题，本文提出一种跨层互注意力学习网络（Cross-layer Mutual Attention Learning Network, CMAL-Net）。该方法将CNN从浅层到深层的各层级视为“专家”，每个专家具备对图像不同视角的理解能力。具体而言，每个专家独立输出类别预测结果，并生成一个注意力区域，用以标识其发现的关键线索。这些注意力区域作为专家之间的信息传递载体，带来三方面优势：（ⅰ）引导模型聚焦于具有判别性的图像区域；（ⅱ）通过注意力区域增强训练数据的多样性，相当于生成额外的监督信号；（ⅲ）促进各专家之间相互学习，从而提升整体分类性能。在三个具有代表性的基准数据集——FGVC-Aircraft、Stanford Cars和Food-11上，CMAL-Net均取得了当前最优的分类性能，验证了其有效性与先进性。

源 PDF 查看代码