3 个月前

相互学习以实现更优分类:用于细粒度视觉分类的跨层互注意力学习

相互学习以实现更优分类:用于细粒度视觉分类的跨层互注意力学习

摘要

细粒度视觉分类(Fine-grained Visual Classification, FGVC)具有重要价值,但同时也面临巨大挑战。FGVC的难点主要源于类别间固有的高相似性、类内显著的变异以及训练数据的有限性。此外,随着深度卷积神经网络(CNN)的广泛应用,研究者普遍依赖深层网络提取的抽象语义信息进行分类,而对浅层网络中蕴含的细粒度、局部细节信息则被忽视。针对上述问题,本文提出一种跨层互注意力学习网络(Cross-layer Mutual Attention Learning Network, CMAL-Net)。该方法将CNN从浅层到深层的各层级视为“专家”,每个专家具备对图像不同视角的理解能力。具体而言,每个专家独立输出类别预测结果,并生成一个注意力区域,用以标识其发现的关键线索。这些注意力区域作为专家之间的信息传递载体,带来三方面优势:(ⅰ)引导模型聚焦于具有判别性的图像区域;(ⅱ)通过注意力区域增强训练数据的多样性,相当于生成额外的监督信号;(ⅲ)促进各专家之间相互学习,从而提升整体分类性能。在三个具有代表性的基准数据集——FGVC-Aircraft、Stanford Cars和Food-11上,CMAL-Net均取得了当前最优的分类性能,验证了其有效性与先进性。

基准测试

基准方法指标
fine-grained-image-classification-on-fgvcCMAL-Net
Accuracy: 94.7%
fine-grained-image-classification-on-stanfordCMAL-Net
Accuracy: 97.1%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
相互学习以实现更优分类:用于细粒度视觉分类的跨层互注意力学习 | 论文 | HyperAI超神经