4 个月前

揭示掩码图像建模的隐秘黑暗面

揭示掩码图像建模的隐秘黑暗面

摘要

掩码图像建模(MIM)作为预训练方法已被证明对众多视觉下游任务有效,但其工作原理和作用位置仍不清楚。在本文中,我们从两个角度——可视化和实验——将MIM与长期以来占主导地位的监督预训练模型进行比较,以揭示它们的关键表示差异。通过可视化分析,我们发现MIM为训练模型的所有层带来了局部归纳偏置,而监督模型则倾向于在较低层关注局部特征,在较高层关注全局特征。这可能是MIM有助于具有非常大感受野的视觉变换器优化的原因。使用MIM时,模型可以在所有层中保持较大的注意力头多样性。而对于监督模型,注意力头的多样性几乎在最后三层消失,较少的多样性会损害微调性能。通过实验我们发现,与监督模型相比,MIM模型在几何和运动任务(这些任务语义较弱或需要细粒度分类)上表现显著更好。无需任何额外技巧,标准的MIM预训练SwinV2-L模型在姿态估计(COCO测试开发集上的AP为78.9%,CrowdPose上的AP为78.0%)、深度估计(NYUv2上的RMSE为0.287,KITTI上的RMSE为1.966)以及视频目标跟踪(LaSOT上的SUC为70.7%)等任务上达到了最先进的性能。对于类别已由监督预训练充分覆盖的语义理解数据集,MIM模型仍然可以实现极具竞争力的迁移性能。通过对MIM有更深入的理解,我们希望我们的研究能够激发该领域的新的、扎实的研究方向。

代码仓库

SwinTransformer/MIM-Depth-Estimation
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
depth-estimation-on-nyu-depth-v2SwinV2-B 1K-MIM
RMS: 0.304
depth-estimation-on-nyu-depth-v2SwinV2-L 1K-MIM
RMS: 0.287
monocular-depth-estimation-on-kitti-eigenSwinV2-B 1K-MIM
Delta u003c 1.25: 0.976
Delta u003c 1.25^2: 0.998
Delta u003c 1.25^3: 0.999
RMSE: 2.050
RMSE log: 0.078
Sq Rel: 0.148
absolute relative error: 0.052
monocular-depth-estimation-on-kitti-eigenSwinV2-L 1K-MIM
Delta u003c 1.25: 0.977
Delta u003c 1.25^2: 0.998
Delta u003c 1.25^3: 1.000
RMSE: 1.966
RMSE log: 0.075
Sq Rel: 0.139
absolute relative error: 0.050
monocular-depth-estimation-on-nyu-depth-v2SwinV2-L 1K-MIM
Delta u003c 1.25: 0.949
Delta u003c 1.25^2: 0.994
Delta u003c 1.25^3: 0.999
RMSE: 0.287
absolute relative error: 0.083
log 10: 0.035
pose-estimation-on-coco-test-devSwinV2-L 1K-MIM
AP: 77.2
pose-estimation-on-coco-test-devSwinV2-B 1K-MIM
AP: 76.7
pose-estimation-on-crowdposeSwinV2-L 1K-MIM
AP: 75.5
pose-estimation-on-crowdposeSwinV2-B 1K-MIM
AP: 74.9
visual-object-tracking-on-got-10kSwinV2-B 1K-MIM
Average Overlap: 70.8
visual-object-tracking-on-got-10kSwinV2-L 1K-MIM
Average Overlap: 72.9
visual-object-tracking-on-lasotSwinV2-B 1K-MIM
AUC: 70
visual-object-tracking-on-lasotSwinV2-L 1K-MIM
AUC: 70.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
揭示掩码图像建模的隐秘黑暗面 | 论文 | HyperAI超神经