6 个月前

摘要

大规模自然语言处理（NLP）模型已被证明在各类语言任务上显著提升了性能，且尚未出现性能饱和的迹象，同时展现出类人般的少样本学习能力。本文旨在探索大规模模型在计算机视觉领域的应用。针对大规模视觉模型在训练与应用过程中面临的三大核心挑战——训练不稳定性、预训练与微调阶段分辨率之间的差异，以及对大量标注数据的依赖问题，本文提出三种关键技术：（1）结合残差后归一化（residual-post-norm）与余弦注意力机制，有效提升训练稳定性；（2）提出一种对数间隔连续位置偏置（log-spaced continuous position bias）方法，实现从低分辨率图像预训练模型向高分辨率下游任务的高效迁移；（3）设计一种自监督预训练方法 SimMIM，显著降低对大规模标注图像数据的需求。基于上述技术，本文成功训练出一个参数量达30亿的Swin Transformer V2模型，成为迄今参数量最大的稠密视觉模型。该模型支持最高达1,536×1,536分辨率图像的训练，展现出强大的高分辨率处理能力。在四个代表性视觉任务上，该模型均创下新的性能纪录，包括ImageNet-V2图像分类、COCO目标检测、ADE20K语义分割以及Kinetics-400视频动作分类任务。值得注意的是，本方法的训练效率远超谷歌此前发布的百亿级视觉模型：仅需其1/40的标注数据和1/40的训练时间。相关代码已开源，地址为：\url{https://github.com/microsoft/Swin-Transformer}。

源 PDF