摘要
在少样本标注数据的情况下,针对互不重叠类别训练的分类器被用于零样本学习(one-shot learning),以识别其他类别的视觉概念。近年来,孪生网络(Siamese networks)与相似性层(similarity layers)被广泛应用于解决零样本学习问题,并在视觉字符识别数据集上取得了当前最优的性能表现。多年来,研究者们提出了多种技术以提升此类网络在细粒度图像分类数据集上的表现,主要包括改进损失函数与激活函数、增强视觉特征表示、采用多尺度度量学习方法,以及对主干网络进行预训练与微调。本文针对零样本学习任务深入研究了相似性层,并提出了两种将这些层融合进MergedNet网络的框架。在实验所用的四个数据集上,MergedNet均在分类准确率方面优于基线模型;此外,当在miniImageNet数据集上训练后,该模型还展现出良好的泛化能力,可有效迁移至其他数据集。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| few-shot-image-classification-on-caltech-256 | MergedNet-Max | Accuracy: 65.77 |
| few-shot-image-classification-on-caltech-256-1 | MergedNet-Concat | Accuracy: 81.34 |
| few-shot-image-classification-on-cub-200-5 | MergedNet-Max | Accuracy: 83.42 |
| few-shot-image-classification-on-cub-200-5-1 | MergedNet-Max | Accuracy: 75.34 |
| few-shot-image-classification-on-mini-2 | MergedNet-Max | Accuracy: 68.05 |
| few-shot-image-classification-on-mini-3 | MergedNet-Max | Accuracy: 80.40 |