
摘要
细粒度图像分类因其数据集中存在的层次化“粗粒度到细粒度”分布而具有挑战性。通常,细粒度数据集中的物体区分依赖于局部部件信息,然而并非所有部件都具有判别性或不可或缺。近年来,自然语言描述被用于获取物体中具有判别性的部件信息。本文利用自然语言描述,提出一种基于多层双分支网络的联合表示学习策略,以同时建模自然语言描述与图像信息,从而提升细粒度图像分类性能。大量实验结果表明,所提出方法在细粒度图像分类任务中显著提升了分类准确率。此外,该方法在CUB-200-2011数据集上取得了新的最先进(state-of-the-art)性能。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| fine-grained-image-classification-on-cub-200-1 | Nts-Net | Accuracy: 87.5 |
| multimodal-deep-learning-on-cub-200-2011 | Two Branch Network (Text - Bert + Image - Nts-Net) | Accuracy: 96.81 |
| multimodal-text-and-image-classification-on | Two Branch Network (Text - Bert + Image - Nts-Net) | Accuracy: 96.81 |