
摘要
在本文中,我们重新审视了深度神经网络中的不确定性估计技术,并整合了一系列方法以增强其可靠性。我们的研究发现,通过综合应用多种技术——包括模型正则化、分类器和优化方法——可以显著提高图像分类任务中不确定性预测的准确性。这些技术的协同效应最终形成了我们提出的新型SURE方法。我们对SURE进行了严格的评估,将其与失败预测这一关键测试平台上的基准进行对比,后者是检验不确定性估计效果的重要测试环境。结果显示,SURE在各种数据集和模型架构上均表现出优于单独使用每种技术的模型的一致性能提升。当应用于现实挑战,如数据损坏、标签噪声和长尾类别分布时,SURE展现出卓越的鲁棒性,其结果要么优于当前最先进的专门方法,要么与之相当。特别是在处理带有噪声标签的学习任务时,例如在Animal-10N和Food-101N数据集上,SURE无需任何特定任务调整即可达到最先进的性能。本工作不仅为稳健的不确定性估计设定了新的基准,还为其在可靠性至关重要的多样化现实场景中的应用铺平了道路。我们的代码可在以下网址获取:https://yutingli0606.github.io/SURE/。
代码仓库
YutingLi0606/SURE
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-classification-on-food-101n-1 | SURE(ResNet-50) | Accuracy: 88.0 |
| learning-with-noisy-labels-on-animal | SURE | Accuracy: 89.0 ImageNet Pretrained: NO Network: Vgg19-BN |
| long-tail-learning-on-cifar-10-lt-r-10 | SURE(ResNet-32) | Error Rate: 5.04 |
| long-tail-learning-on-cifar-10-lt-r-100 | SURE(ResNet-32) | Error Rate: 13.07 |
| long-tail-learning-on-cifar-10-lt-r-50 | SURE(ResNet-32) | Error Rate: 9.78 |
| long-tail-learning-on-cifar-100-lt-r-10 | SURE(ResNet-32) | Error Rate: 26.76 |
| long-tail-learning-on-cifar-100-lt-r-100 | SURE(ResNet-32) | Error Rate: 43.66 |
| long-tail-learning-on-cifar-100-lt-r-50 | SURE(ResNet-32) | Error Rate: 36.87 |