6 个月前

摘要

细粒度视觉分类（Fine-grained Visual Classification, FGVC）旨在识别物体的子类别，由于类别间差异极为细微，因此是一项极具挑战性的任务。现有大多数方法主要通过复用主干网络来提取检测到的判别性区域特征，但这一策略不可避免地导致模型流程复杂化，并促使所提出的区域包含物体的大部分区域，从而难以精确定位真正关键的局部部件。近年来，视觉Transformer（Vision Transformer, ViT）在传统图像分类任务中展现出强大的性能。其自注意力机制将每个图像块（patch token）与分类令牌（classification token）建立关联。在本工作中，我们首先评估了ViT框架在细粒度识别场景下的有效性。随后，受注意力连接机制可直观反映各令牌重要性的启发，我们提出了一种新型的部件选择模块（Part Selection Module），该模块可适配大多数Transformer架构。该模块将Transformer中所有原始注意力权重整合为一个注意力图，用以引导网络高效且准确地选择具有判别性的图像块，并建模其相互关系。此外，我们引入对比损失（contrastive loss），以增强易混淆类别间特征表示的距离。我们将改进后的基于Transformer的模型命名为TransFG，并通过在五个主流细粒度分类基准数据集上的实验，验证了该模型的优越性能，取得了当前最优（state-of-the-art）结果。同时，我们提供了定性分析结果，以帮助更深入地理解模型的判别机制与决策过程。

源 PDF