4 个月前

揭示掩码图像建模的隐秘黑暗面

Zhenda Xie; Zigang Geng; Jingcheng Hu; Zheng Zhang; Han Hu; Yue Cao

摘要

掩码图像建模（MIM）作为预训练方法已被证明对众多视觉下游任务有效，但其工作原理和作用位置仍不清楚。在本文中，我们从两个角度——可视化和实验——将MIM与长期以来占主导地位的监督预训练模型进行比较，以揭示它们的关键表示差异。通过可视化分析，我们发现MIM为训练模型的所有层带来了局部归纳偏置，而监督模型则倾向于在较低层关注局部特征，在较高层关注全局特征。这可能是MIM有助于具有非常大感受野的视觉变换器优化的原因。使用MIM时，模型可以在所有层中保持较大的注意力头多样性。而对于监督模型，注意力头的多样性几乎在最后三层消失，较少的多样性会损害微调性能。通过实验我们发现，与监督模型相比，MIM模型在几何和运动任务（这些任务语义较弱或需要细粒度分类）上表现显著更好。无需任何额外技巧，标准的MIM预训练SwinV2-L模型在姿态估计（COCO测试开发集上的AP为78.9%，CrowdPose上的AP为78.0%）、深度估计（NYUv2上的RMSE为0.287，KITTI上的RMSE为1.966）以及视频目标跟踪（LaSOT上的SUC为70.7%）等任务上达到了最先进的性能。对于类别已由监督预训练充分覆盖的语义理解数据集，MIM模型仍然可以实现极具竞争力的迁移性能。通过对MIM有更深入的理解，我们希望我们的研究能够激发该领域的新的、扎实的研究方向。

代码仓库

SwinTransformer/MIM-Depth-Estimation

官方

pytorch

GitHub 中提及

基准测试

基准	方法	指标
depth-estimation-on-nyu-depth-v2	SwinV2-B 1K-MIM	RMS: 0.304
depth-estimation-on-nyu-depth-v2	SwinV2-L 1K-MIM	RMS: 0.287
monocular-depth-estimation-on-kitti-eigen	SwinV2-B 1K-MIM	Delta u003c 1.25: 0.976 Delta u003c 1.25^2: 0.998 Delta u003c 1.25^3: 0.999 RMSE: 2.050 RMSE log: 0.078 Sq Rel: 0.148 absolute relative error: 0.052
monocular-depth-estimation-on-kitti-eigen	SwinV2-L 1K-MIM	Delta u003c 1.25: 0.977 Delta u003c 1.25^2: 0.998 Delta u003c 1.25^3: 1.000 RMSE: 1.966 RMSE log: 0.075 Sq Rel: 0.139 absolute relative error: 0.050
monocular-depth-estimation-on-nyu-depth-v2	SwinV2-L 1K-MIM	Delta u003c 1.25: 0.949 Delta u003c 1.25^2: 0.994 Delta u003c 1.25^3: 0.999 RMSE: 0.287 absolute relative error: 0.083 log 10: 0.035
pose-estimation-on-coco-test-dev	SwinV2-L 1K-MIM	AP: 77.2
pose-estimation-on-coco-test-dev	SwinV2-B 1K-MIM	AP: 76.7
pose-estimation-on-crowdpose	SwinV2-L 1K-MIM	AP: 75.5
pose-estimation-on-crowdpose	SwinV2-B 1K-MIM	AP: 74.9
visual-object-tracking-on-got-10k	SwinV2-B 1K-MIM	Average Overlap: 70.8
visual-object-tracking-on-got-10k	SwinV2-L 1K-MIM	Average Overlap: 72.9
visual-object-tracking-on-lasot	SwinV2-B 1K-MIM	AUC: 70
visual-object-tracking-on-lasot	SwinV2-L 1K-MIM	AUC: 70.7

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供