
摘要
近年来,基于深度卷积神经网络(CNN)的图像识别技术取得了显著进展。这主要得益于此类网络在从纹理和形状中挖掘具有判别性的物体姿态与局部结构信息方面的强大能力。然而,这种特性在细粒度视觉分类(Fine-Grained Visual Classification, FGVC)任务中往往表现不佳,因为FGVC通常面临类内差异大、类间差异小的问题,这由遮挡、形变、光照变化等因素导致。因此,能够准确描述全局结构信息的表达性特征表示,成为刻画物体或场景的关键。为此,我们提出了一种新方法,通过聚合最相关图像区域的上下文感知特征及其在区分细粒度类别中的重要性,有效捕捉细微变化,且无需依赖边界框标注或可区分部件标注。该方法受到自注意力机制与图神经网络(GNN)最新进展的启发,引入了一种简洁而高效的关联感知特征变换机制,并结合上下文感知注意力机制对特征进行优化,从而在端到端学习过程中显著提升变换后特征的判别能力。我们在包含细粒度物体及人-物体交互的八个基准数据集上对所提模型进行了评估,实验结果表明,该方法在识别准确率方面显著优于现有最先进方法。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| fine-grained-image-classification-on-cub-200 | SR-GNN | Accuracy: 91.9% |
| fine-grained-image-classification-on-fgvc | SR-GNN | Accuracy: 95.4 FLOPS: 9.8 PARAMS: 30.9 |
| fine-grained-image-classification-on-nabirds | SR-GNN | Accuracy: 91.2% |
| fine-grained-image-classification-on-oxford | SR-GNN | Accuracy: 97.9% FLOPS: 9.8 PARAMS: 30.9 |
| fine-grained-image-classification-on-stanford | SR-GNN | Accuracy: 96.1 FLOPS: 9.8 PARAMS: 30.9 |
| fine-grained-image-classification-on-stanford-1 | MP | Accuracy: 97.3% |