
摘要
近年来,通过频域成分分解的解释技术,卷积神经网络(CNN)的泛化行为逐渐被揭示。然而,图像相位谱在构建鲁棒视觉系统中的重要性仍未得到足够重视。本文发现,CNN倾向于收敛至与训练图像高频成分密切相关的局部最优解,而幅值谱则容易受到噪声或常见退化因素的干扰。相比之下,大量实证研究表明,人类视觉系统更依赖相位成分来实现鲁棒的识别能力。基于这一观察,本文进一步揭示了CNN在应对常见扰动时的泛化特性及其在分布外检测中的表现,并由此提出一种新的数据增强思路:将当前图像的相位谱与干扰图像的幅值谱重新组合,生成新的训练样本。该方法迫使CNN更加关注来自相位成分的结构化信息,同时增强对幅值变化的鲁棒性。在多个图像数据集上的实验结果表明,所提出的方法在多项泛化与校准任务中均达到当前最优性能,包括对常见退化与表面变化的适应能力、分布外样本检测以及对抗攻击下的鲁棒性。
代码仓库
iCGY96/APR
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| domain-generalization-on-imagenet-c | APR-SP + DeepAugment (ResNet-50) | mean Corruption Error (mCE): 57.5 |
| domain-generalization-on-imagenet-c | APR-SP (ResNet-50) | mean Corruption Error (mCE): 65.0 |
| out-of-distribution-detection-on-cifar-10 | ResNet18 + APR-P | AUROC: 98.1 |