
摘要
我们提出了一种新型计算单元——PushPull-Conv,将其置于ResNet架构的第一层中,其设计灵感源自初级视觉皮层中观察到的反相抑制现象。该单元重新定义了传统的卷积层,通过引入一对互补的可训练滤波器:一个可学习的“推”核(push kernel)及其对应的“拉”核(pull kernel)。其中,“推”核(类比于传统卷积操作)学习对特定刺激产生响应,而“拉”核则对相同刺激但相反对比度的输入作出反应。这种配置显著增强了对刺激的选择性,并有效抑制了在缺乏偏好刺激区域的响应。其机制在于,在无偏好刺激的区域,推核与拉核产生的响应幅度相近,从而相互抵消,实现自适应抑制。将PushPull-Conv集成至ResNet中,显著提升了模型对图像退化的鲁棒性。在标准图像退化数据集上的实验表明,PushPull-Conv可与多种数据增强技术协同使用,进一步提升模型的抗干扰能力。通过结合PRIME增强方法与PushPull抑制机制,我们在ResNet50上实现了ImageNet-C数据集上的新基准性能,mCE(mean Corruption Error)达到49.95%。
代码仓库
bgswaroop/pushpull-conv
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| domain-generalization-on-imagenet-c | ResNet-50 (PushPull-Conv) + PRIME | Number of params: 25.6 Top 1 Accuracy: 69.4 mean Corruption Error (mCE): 49.95 |