3 个月前

鲁棒性的多重面貌:对分布外泛化能力的批判性分析

鲁棒性的多重面貌:对分布外泛化能力的批判性分析

摘要

我们引入了四个新的真实世界分布偏移数据集,涵盖图像风格变化、图像模糊度、地理位置差异、相机操作变化等多种因素。基于这些新数据集,我们对以往提出的提升分布外鲁棒性的方法进行了系统评估与实证检验。研究发现,使用更大规模的模型以及人工数据增强手段,能够有效提升模型在真实世界分布偏移下的鲁棒性,这一结论与先前研究中的观点相悖。此外,我们在人工构造的鲁棒性基准测试中观察到的性能提升,能够有效迁移至真实世界的分布偏移场景,这也与以往研究中的断言不一致。基于我们观察到数据增强在应对真实世界分布偏移中具有显著作用,我们进一步提出了一种新型数据增强方法,该方法在性能上超越了使用1000倍更多标注数据预训练的模型,达到了当前最先进的水平。总体而言,我们发现某些方法在纹理特征和局部图像统计分布偏移中表现稳定,有助于提升鲁棒性,但对其他类型的分布偏移(如地理区域变化)则无明显改善效果。我们的研究结果表明,未来的研究必须同时考虑多种分布偏移的复合影响,因为我们已证明:目前评估的任何方法均无法在所有类型的分布偏移上 consistently 提升模型鲁棒性。

代码仓库

hendrycks/imagenet-r
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
domain-generalization-on-imagenet-cDeepAugment (ResNet-50)
mean Corruption Error (mCE): 60.4
domain-generalization-on-imagenet-rDeepAugment (ResNet-50)
Top-1 Error Rate: 57.8
domain-generalization-on-imagenet-rDeepAugment+AugMix (ResNet-50)
Top-1 Error Rate: 53.2
domain-generalization-on-vizwizResNet-50 (deepaugment)
Accuracy - All Images: 41.3
Accuracy - Clean Images: 46
Accuracy - Corrupted Images: 34.9
domain-generalization-on-vizwizResNet-50 (deepaugment+augmix)
Accuracy - All Images: 40.3
Accuracy - Clean Images: 44.5
Accuracy - Corrupted Images: 34.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
鲁棒性的多重面貌:对分布外泛化能力的批判性分析 | 论文 | HyperAI超神经