
摘要
多任务学习是一种流行的训练高性能神经网络的方法,可以提高模型的泛化能力。在本文中,我们提出了一种背景类,以较低的计算成本实现更好的泛化效果,从而帮助计算资源有限的研究人员和组织。我们还介绍了一种选择背景图像的方法,并讨论了潜在的未来改进方向。我们将该方法应用于多个数据集,在显著降低计算成本的同时实现了更好的泛化性能。通过分析训练模型的类激活映射(Class Activation Mappings, CAMs),我们观察到所提出的模型训练方法倾向于关注更大的整体图像。将视觉变换器与所提出的背景类结合使用,我们在CIFAR-10C、Caltech-101和CINIC-10数据集上取得了最先进的(State-of-the-Art, SOTA)性能。示例脚本可在以下GitHub仓库的`CAM'文件夹中获取:github.com/dipuk0506/UQ
代码仓库
dipuk0506/SpinalNet
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| classification-on-cifar-10c | ViT-L/16 (Background) | Accuracy on Brightness Corrupted Images: 99.03 |
| fine-grained-image-classification-on-caltech | VIT-L/16 | Top-1 Error Rate: 1.98% |
| image-classification-on-cifar-10 | VIT-L/16 (Spinal FC, Background) | Percentage correct: 99.05 |
| image-classification-on-cifar-100 | VIT-L/16 (Spinal FC, Background) | Percentage correct: 93.31 |
| image-classification-on-cinic-10 | VIT-L/16 (Spinal FC, Background) | Accuracy: 95.80 |
| image-classification-on-flowers-102 | VIT-L/16 (Background) | Accuracy: 99.75 |