
摘要
卷积神经网络(CNNs)通常被认为通过学习越来越复杂的物体形状表示来识别物体。然而,一些最近的研究表明图像纹理可能起着更重要的作用。本文通过评估在纹理-形状线索冲突图像上训练的CNNs和人类观察者的表现,对这些相互矛盾的假设进行了定量测试。研究结果表明,基于ImageNet训练的CNNs强烈偏向于识别纹理而非形状,这与人类行为证据形成鲜明对比,揭示了两者在分类策略上的根本差异。随后,我们展示了当使用“风格化ImageNet”(Stylized-ImageNet)这一经过风格化的ImageNet版本进行训练时,同一标准架构(ResNet-50)能够从基于纹理的表示转向基于形状的表示。在我们严格控制的心理物理实验室环境中(共进行了九项实验,总计48,560次心理物理试验,涉及97名观察者),这种基于形状的表示与人类行为表现更加吻合,并且带来了许多意想不到的好处,例如提高了目标检测性能以及对广泛图像失真的前所未有的鲁棒性,突显了基于形状表示的优势。
代码仓库
rgeirhos/texture-vs-shape
pytorch
facebookresearch/augmentation-corruption
pytorch
GitHub 中提及
annstrange/breast-cancer-cnn
tf
GitHub 中提及
rgeirhos/Stylized-ImageNet
官方
pytorch
GitHub 中提及
mbuet2ner/local-global-features-cnn
pytorch
GitHub 中提及
LiYingwei/ShapeTextureDebiasedTraining
pytorch
GitHub 中提及
frank-roesler/Image_Segmentation
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| domain-generalization-on-imagenet-a | Stylized ImageNet (ResNet-50) | Top-1 accuracy %: 2.3 |
| domain-generalization-on-imagenet-c | Stylized ImageNet (ResNet-50) | mean Corruption Error (mCE): 69.3 |
| domain-generalization-on-imagenet-r | Stylized ImageNet (ResNet-50) | Top-1 Error Rate: 58.5 |
| domain-generalization-on-vizwiz | ResNet-50 (SIN) | Accuracy - All Images: 25.3 Accuracy - Clean Images: 30 Accuracy - Corrupted Images: 20.4 |
| domain-generalization-on-vizwiz | ResNet-50 (SIN_IN_IN) | Accuracy - All Images: 39.2 Accuracy - Clean Images: 44.6 Accuracy - Corrupted Images: 32.4 |
| domain-generalization-on-vizwiz | ResNet-50 (SIN_IN) | Accuracy - All Images: 38.2 Accuracy - Clean Images: 42.7 Accuracy - Corrupted Images: 32.5 |
| object-recognition-on-shape-bias | ResNet-50 | shape bias: 22.1 |
| object-recognition-on-shape-bias | GoogLeNet | shape bias: 31.2 |
| object-recognition-on-shape-bias | VGG-16 | shape bias: 17.2 |
| object-recognition-on-shape-bias | AlexNet | shape bias: 42.9 |