3 个月前

基于部分引导的关系Transformer用于细粒度视觉识别

Yifan Zhao Jia Li Xiaowu Chen Yonghong Tian

摘要

细粒度视觉识别旨在将外观高度相似的物体分类到更细的子类别中，随着深度卷积神经网络（Deep CNNs）的发展，该领域已取得显著进展。然而，如何有效区分不同子类别之间的细微差异仍是当前面临的挑战。本文提出一种统一框架，从两个方面解决该问题：构建特征层面的相互关系，以及捕捉局部区域的判别性特征。该框架名为基于部分引导的关系Transformer（PART），通过一个自动部分发现模块学习具有判别性的局部特征，并借助源自自然语言处理领域的Transformer模型，设计特征变换模块以挖掘特征间的内在关联。其中，部分发现模块能够高效识别出与梯度下降过程高度相关的判别性区域；随后，第二个特征变换模块在全局嵌入与多个局部区域嵌入之间建立关联，增强语义像素间的空间交互能力。此外，所提方法在推理阶段无需额外的部分分支，具有较高的效率与实用性。在三个广泛使用的细粒度物体识别基准数据集上，该方法均达到了当前最优的性能表现。实验结果与可解释性可视化分析充分验证了所提方法的有效性。代码已开源，地址为：https://github.com/iCVTEAM/PART。

代码仓库

icvteam/part

官方

pytorch

基准测试

基准	方法	指标
fine-grained-image-classification-on-cub-200	PART	Accuracy: 90.1%
fine-grained-image-classification-on-fgvc	PART	Accuracy: 94.6%
fine-grained-image-classification-on-stanford	PART	Accuracy: 95.3%

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供