3 个月前

TransFG:一种用于细粒度识别的Transformer架构

TransFG:一种用于细粒度识别的Transformer架构

摘要

细粒度视觉分类(Fine-grained Visual Classification, FGVC)旨在识别物体的子类别,由于类别间差异极为细微,因此是一项极具挑战性的任务。现有大多数方法主要通过复用主干网络来提取检测到的判别性区域特征,但这一策略不可避免地导致模型流程复杂化,并促使所提出的区域包含物体的大部分区域,从而难以精确定位真正关键的局部部件。近年来,视觉Transformer(Vision Transformer, ViT)在传统图像分类任务中展现出强大的性能。其自注意力机制将每个图像块(patch token)与分类令牌(classification token)建立关联。在本工作中,我们首先评估了ViT框架在细粒度识别场景下的有效性。随后,受注意力连接机制可直观反映各令牌重要性的启发,我们提出了一种新型的部件选择模块(Part Selection Module),该模块可适配大多数Transformer架构。该模块将Transformer中所有原始注意力权重整合为一个注意力图,用以引导网络高效且准确地选择具有判别性的图像块,并建模其相互关系。此外,我们引入对比损失(contrastive loss),以增强易混淆类别间特征表示的距离。我们将改进后的基于Transformer的模型命名为TransFG,并通过在五个主流细粒度分类基准数据集上的实验,验证了该模型的优越性能,取得了当前最优(state-of-the-art)结果。同时,我们提供了定性分析结果,以帮助更深入地理解模型的判别机制与决策过程。

代码仓库

TACJu/TransFG
官方
pytorch
GitHub 中提及
skchen1993/TrangFG
pytorch
GitHub 中提及

基准测试

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
TransFG:一种用于细粒度识别的Transformer架构 | 论文 | HyperAI超神经