
摘要
掩码自编码器(Masked AutoEncoders, MAE)作为一种强大的自监督学习框架,已在众多下游任务中展现出卓越的性能。为提升预训练任务的难度并学习更丰富的视觉表征,现有方法倾向于用更复杂的掩码策略替代传统的随机掩码,例如对抗引导掩码和教师引导掩码等。然而,这些策略通常依赖于输入数据,导致模型复杂度增加,并需额外计算以生成掩码模式,带来显著的计算开销。这引发了一个关键问题:我们能否在不依赖输入数据、且不引入额外计算成本的前提下,进一步提升MAE的性能?在本工作中,我们提出了一种简单而高效的数据无关方法——ColorMAE,该方法通过过滤随机噪声生成不同的二值掩码模式。受图像处理中色彩噪声的启发,我们探索了四种不同类型的滤波器,以生成具有不同空间结构与语义先验特性的掩码模式。ColorMAE无需引入任何可学习参数,也不增加网络的计算负担,却能显著增强模型所学习到的视觉表征能力。我们进行了全面的实证评估,结果表明,相较于传统的随机掩码策略,本方法在各类下游任务中均表现出明显优势。尤为突出的是,在语义分割任务中,相较于基线MAE模型,我们的方法实现了mIoU指标2.72的提升。
代码仓库
carlosh93/ColorMAE
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| image-classification-on-imagenet | ColorMAE-Green-ViTB-1600 | Top 1 Accuracy: 83.8% |
| instance-segmentation-on-coco-3 | ColorMAE-Green-ViTB-1600 | maskAP: 44.4 maskAP50: 67.8 maskAP75: 48 |
| object-detection-on-coco-11 | ColorMAE-Green-ViTB-1600 | boxAP: 50.1 boxAP50: 70.7 boxAP75: 54.7 |
| semantic-segmentation-on-ade20k | ColorMAE-Green-ViTB-1600 | Validation mIoU: 49.3 |