
摘要
细粒度视觉分类(FGVC)涉及对密切相关子类的分类。这一任务由于类间细微差异和类内高变异性而变得困难。此外,FGVC 数据集通常较小且难以收集,因此迫切需要有效的数据增强方法。最近在文本到图像扩散模型方面的进展为增强分类数据集提供了新的可能性。尽管这些模型已被用于生成分类任务的训练数据,但它们在FGVC模型全数据集训练中的有效性仍有待深入研究。依赖于Text2Image生成或Img2Img方法的最新技术往往难以在修改图像以显著增加数据集多样性的同时准确表示类别。为了解决这些挑战,我们提出了一种名为SaSPA(结构和主体保留增强)的方法。与近期方法不同,我们的方法不使用真实图像作为引导,从而提高了生成的灵活性并促进了更大的多样性。为了确保准确的类别表示,我们采用了条件机制,具体包括基于图像边缘和主体表示进行条件设置。我们进行了广泛的实验,并将SaSPA与传统和最新的生成式数据增强方法进行了基准测试。SaSPA在多种设置下始终优于所有已建立的基线方法,包括全数据集训练、上下文偏差和少样本分类。此外,我们的结果揭示了使用合成数据训练FGVC模型时的一些有趣模式;例如,我们发现使用的真实数据量与最优合成数据比例之间存在关系。代码可在https://github.com/EyalMichaeli/SaSPA-Aug 获取。
代码仓库
eyalmichaeli/saspa-aug
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| few-shot-learning-on-dtd | SaSPA + CAL | 12-shot Accuracy: 58.1 16-shot Accuracy: 60.2 4-shot Accuracy: 48.3 8-shot Accuracy: 54.8 |
| few-shot-learning-on-fgvc-aircraft-1 | SaSPA + CAL | 12-shot Accuracy: 75.4 16-shot Accuracy: 78.9 4-shot Accuracy: 52.2 8-shot Accuracy: 67.2 Harmonic mean: 52.2 |
| few-shot-learning-on-stanford-cars | SaSPA + CAL | 12-shot Accuracy: 88.8 16-shot Accuracy: 91.0 4-shot Accuracy: 66.7 8-shot Accuracy: 82.6 |
| fine-grained-image-classification-on-fgvc | SaSPA + CAL | Accuracy: 94.5 |
| fine-grained-image-classification-on-stanford | SaSPA + CAL | Accuracy: 95.72 |
| mitigating-contextual-bias-on-fgvc-aircraft | CAL + SaSPA | OOD Accuracy (%): 41.5 Top-1 Accuracy (%): 73.0 |