摘要
细粒度视觉分类(Fine-grained Visual Classification, FGVC)具有重要价值,但同时也面临巨大挑战。FGVC的难点主要源于类别间固有的高相似性、类内显著的变异以及训练数据的有限性。此外,随着深度卷积神经网络(CNN)的广泛应用,研究者普遍依赖深层网络提取的抽象语义信息进行分类,而对浅层网络中蕴含的细粒度、局部细节信息则被忽视。针对上述问题,本文提出一种跨层互注意力学习网络(Cross-layer Mutual Attention Learning Network, CMAL-Net)。该方法将CNN从浅层到深层的各层级视为“专家”,每个专家具备对图像不同视角的理解能力。具体而言,每个专家独立输出类别预测结果,并生成一个注意力区域,用以标识其发现的关键线索。这些注意力区域作为专家之间的信息传递载体,带来三方面优势:(ⅰ)引导模型聚焦于具有判别性的图像区域;(ⅱ)通过注意力区域增强训练数据的多样性,相当于生成额外的监督信号;(ⅲ)促进各专家之间相互学习,从而提升整体分类性能。在三个具有代表性的基准数据集——FGVC-Aircraft、Stanford Cars和Food-11上,CMAL-Net均取得了当前最优的分类性能,验证了其有效性与先进性。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| fine-grained-image-classification-on-fgvc | CMAL-Net | Accuracy: 94.7% |
| fine-grained-image-classification-on-stanford | CMAL-Net | Accuracy: 97.1% |