Shlok MishraAnshul ShahAnkan BansalJanit AnjariaJonghyun ChoiAbhinav ShrivastavaAbhishek SharmaDavid Jacobs

摘要
近期文献表明,通过监督训练获得的卷积神经网络(CNN)特征可能过度强调纹理信息,而未能充分编码高层语义信息。在自监督学习中,纹理作为一种低级线索,可能为模型提供捷径,从而阻碍网络学习更高层次的表征。为解决这一问题,我们提出采用基于各向异性扩散的经典方法,对纹理信息进行抑制的图像进行数据增强。该方法简单有效,能够在抑制纹理的同时保留关键的边缘信息。实验结果表明,无论是在监督学习还是自监督学习任务中,我们的方法在八组多样化的数据集上(包括MoCoV2和Jigsaw等典型自监督方法)均取得了当前最优的性能,尤其在迁移学习任务中表现尤为突出,在五个标准迁移学习数据集上均观察到性能提升。在Sketch-ImageNet和DTD数据集上,性能提升最大可达11.49%,结合显著性图等视觉分析进一步验证了所提方法有助于学习更具泛化能力的表征,从而实现更优的迁移效果。
代码仓库
HaohanWang/ImageNet-Sketch
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-classification-on-imagenet | Perona Malik (Perona and Malik, 1990) | Hardware Burden: Operations per network pass: Top 1 Accuracy: 76.71% |
| object-detection-on-pascal-voc-2007 | Perona Malik (Perona and Malik, 1990) | MAP: 74.37% |