
摘要
细粒度视觉识别旨在将外观高度相似的物体分类到更细的子类别中,随着深度卷积神经网络(Deep CNNs)的发展,该领域已取得显著进展。然而,如何有效区分不同子类别之间的细微差异仍是当前面临的挑战。本文提出一种统一框架,从两个方面解决该问题:构建特征层面的相互关系,以及捕捉局部区域的判别性特征。该框架名为基于部分引导的关系Transformer(PART),通过一个自动部分发现模块学习具有判别性的局部特征,并借助源自自然语言处理领域的Transformer模型,设计特征变换模块以挖掘特征间的内在关联。其中,部分发现模块能够高效识别出与梯度下降过程高度相关的判别性区域;随后,第二个特征变换模块在全局嵌入与多个局部区域嵌入之间建立关联,增强语义像素间的空间交互能力。此外,所提方法在推理阶段无需额外的部分分支,具有较高的效率与实用性。在三个广泛使用的细粒度物体识别基准数据集上,该方法均达到了当前最优的性能表现。实验结果与可解释性可视化分析充分验证了所提方法的有效性。代码已开源,地址为:https://github.com/iCVTEAM/PART。
代码仓库
icvteam/part
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| fine-grained-image-classification-on-cub-200 | PART | Accuracy: 90.1% |
| fine-grained-image-classification-on-fgvc | PART | Accuracy: 94.6% |
| fine-grained-image-classification-on-stanford | PART | Accuracy: 95.3% |