
摘要
深度卷积神经网络(CNNs)在挖掘图像识别中具有判别性的物体姿态与部件信息方面展现出强大的能力。在细粒度识别任务中,对象或场景的上下文感知丰富特征表示起着关键作用,因为同一子类别内部存在显著差异,而不同子类别之间则仅存在细微差别。准确捕捉能够充分表征对象/场景的细微差异并非易事。为此,我们提出一种新颖的上下文感知注意力池化(Context-aware Attentional Pooling, CAP)方法,该方法通过子像素梯度有效捕捉细微变化,并学习关注具有信息量的完整区域及其在区分不同子类别中的重要性,而无需依赖边界框标注和/或可区分部件标注。此外,我们引入了一种新的特征编码机制,通过考虑完整区域信息量与其空间结构之间的内在一致性,以捕捉这些区域之间的语义关联。所提方法结构简洁却极为有效,可轻松集成于标准分类主干网络之上。我们在六种最先进(SotA)主干网络及八个基准数据集上对方法进行了评估,结果表明,该方法在六个数据集上显著优于现有最先进方法,在其余两个数据集上也表现出极强的竞争力。
代码仓库
ArdhenduBehera/cap
tf
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| fine-grained-image-classification-on-cub-200 | CAP | Accuracy: 91.8% |
| fine-grained-image-classification-on-cub-200-1 | CAP | Accuracy: 91.8 |
| fine-grained-image-classification-on-fgvc | CAP | Accuracy: 94.9% PARAMS: 34.2 |
| fine-grained-image-classification-on-food-101 | CAP | Accuracy: 98.6 PARAMS: 34.2 |
| fine-grained-image-classification-on-nabirds | CAP | Accuracy: 91.0% |
| fine-grained-image-classification-on-stanford | CAP | Accuracy: 95.7% |