
摘要
掩码图像建模(MIM)作为预训练方法已被证明对众多视觉下游任务有效,但其工作原理和作用位置仍不清楚。在本文中,我们从两个角度——可视化和实验——将MIM与长期以来占主导地位的监督预训练模型进行比较,以揭示它们的关键表示差异。通过可视化分析,我们发现MIM为训练模型的所有层带来了局部归纳偏置,而监督模型则倾向于在较低层关注局部特征,在较高层关注全局特征。这可能是MIM有助于具有非常大感受野的视觉变换器优化的原因。使用MIM时,模型可以在所有层中保持较大的注意力头多样性。而对于监督模型,注意力头的多样性几乎在最后三层消失,较少的多样性会损害微调性能。通过实验我们发现,与监督模型相比,MIM模型在几何和运动任务(这些任务语义较弱或需要细粒度分类)上表现显著更好。无需任何额外技巧,标准的MIM预训练SwinV2-L模型在姿态估计(COCO测试开发集上的AP为78.9%,CrowdPose上的AP为78.0%)、深度估计(NYUv2上的RMSE为0.287,KITTI上的RMSE为1.966)以及视频目标跟踪(LaSOT上的SUC为70.7%)等任务上达到了最先进的性能。对于类别已由监督预训练充分覆盖的语义理解数据集,MIM模型仍然可以实现极具竞争力的迁移性能。通过对MIM有更深入的理解,我们希望我们的研究能够激发该领域的新的、扎实的研究方向。
代码仓库
SwinTransformer/MIM-Depth-Estimation
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| depth-estimation-on-nyu-depth-v2 | SwinV2-B 1K-MIM | RMS: 0.304 |
| depth-estimation-on-nyu-depth-v2 | SwinV2-L 1K-MIM | RMS: 0.287 |
| monocular-depth-estimation-on-kitti-eigen | SwinV2-B 1K-MIM | Delta u003c 1.25: 0.976 Delta u003c 1.25^2: 0.998 Delta u003c 1.25^3: 0.999 RMSE: 2.050 RMSE log: 0.078 Sq Rel: 0.148 absolute relative error: 0.052 |
| monocular-depth-estimation-on-kitti-eigen | SwinV2-L 1K-MIM | Delta u003c 1.25: 0.977 Delta u003c 1.25^2: 0.998 Delta u003c 1.25^3: 1.000 RMSE: 1.966 RMSE log: 0.075 Sq Rel: 0.139 absolute relative error: 0.050 |
| monocular-depth-estimation-on-nyu-depth-v2 | SwinV2-L 1K-MIM | Delta u003c 1.25: 0.949 Delta u003c 1.25^2: 0.994 Delta u003c 1.25^3: 0.999 RMSE: 0.287 absolute relative error: 0.083 log 10: 0.035 |
| pose-estimation-on-coco-test-dev | SwinV2-L 1K-MIM | AP: 77.2 |
| pose-estimation-on-coco-test-dev | SwinV2-B 1K-MIM | AP: 76.7 |
| pose-estimation-on-crowdpose | SwinV2-L 1K-MIM | AP: 75.5 |
| pose-estimation-on-crowdpose | SwinV2-B 1K-MIM | AP: 74.9 |
| visual-object-tracking-on-got-10k | SwinV2-B 1K-MIM | Average Overlap: 70.8 |
| visual-object-tracking-on-got-10k | SwinV2-L 1K-MIM | Average Overlap: 72.9 |
| visual-object-tracking-on-lasot | SwinV2-B 1K-MIM | AUC: 70 |
| visual-object-tracking-on-lasot | SwinV2-L 1K-MIM | AUC: 70.7 |