
摘要
最近提出的数据增强方法TransMix利用注意力标签帮助视觉变换器(ViT)实现更好的鲁棒性和性能。然而,TransMix在两个方面存在不足:1)TransMix的图像裁剪方法可能不适合ViT;2)在训练初期,模型生成的注意力图不可靠。TransMix使用这些不可靠的注意力图来计算混合注意力标签,这可能会影响模型的表现。为了解决上述问题,我们分别从图像空间和标签空间提出了MaskMix和渐进式注意力标签(Progressive Attention Labeling, PAL)。具体而言,从图像空间的角度,我们设计了MaskMix,该方法基于类似补丁的网格掩模混合两张图像。特别地,每个掩模补丁的大小是可调的,并且是图像补丁大小的倍数,这确保了每个图像补丁仅来自一张图像并包含更多的全局内容。从标签空间的角度,我们设计了PAL,该方法利用一个渐进因子动态地重新加权混合注意力标签的注意力权重。最后,我们将MaskMix和渐进式注意力标签结合,形成了一种新的数据增强方法,命名为MixPro。实验结果表明,我们的方法可以在ImageNet分类任务中提升各种基于ViT的模型性能(基于DeiT-T训练300个epoch后的top-1准确率为73.8%)。经过使用MixPro在ImageNet上预训练后,基于ViT的模型在语义分割、目标检测和实例分割任务中也表现出更好的迁移能力。此外,与TransMix相比,MixPro在多个基准测试中显示出更强的鲁棒性。代码已开源,可在https://github.com/fistyee/MixPro获取。
代码仓库
fistyee/mixpro
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| data-augmentation-on-imagenet | DeiT-S (+MixPro) | Accuracy (%): 81.3 |
| data-augmentation-on-imagenet | DeiT-T (+MixPro) | Accuracy (%): 73.8 |
| data-augmentation-on-imagenet | DeiT-B (+MixPro) | Accuracy (%): 82.9 |
| image-classification-on-imagenet | PVT-T (+MixPro) | Top 1 Accuracy: 76.7% |
| image-classification-on-imagenet | DeiT-T (+MixPro) | Top 1 Accuracy: 73.8% |
| image-classification-on-imagenet | DeiT-B (+MixPro) | Top 1 Accuracy: 82.9% |
| image-classification-on-imagenet | CaiT-XXS (+MixPro) | Top 1 Accuracy: 80.6% |
| image-classification-on-imagenet | PVT-M (+MixPro) | Top 1 Accuracy: 82.7% |
| image-classification-on-imagenet | PVT-S (+MixPro) | Top 1 Accuracy: 81.2% |
| image-classification-on-imagenet | CA-Swin-S (+MixPro) | Top 1 Accuracy: 83.7% |
| image-classification-on-imagenet | CA-Swin-T (+MixPro) | Top 1 Accuracy: 82.8% |
| image-classification-on-imagenet | XCiT-M (+MixPro) | Top 1 Accuracy: 84.1% |