6 个月前

摘要

我们提出了一种密集视觉Transformer（Dense Vision Transformers）架构，该架构将视觉Transformer（Vision Transformer）作为主干网络，替代传统的卷积神经网络，用于密集预测任务。该方法从视觉Transformer的不同阶段提取特征令牌（tokens），构建出具有多分辨率的图像化表示，并通过一个卷积解码器逐步融合这些表示，最终生成全分辨率的预测结果。与传统全卷积网络相比，该Transformer主干在每一阶段均以恒定且相对较高的分辨率处理特征表示，并具备全局感受野。这一特性使得密集视觉Transformer在密集预测任务中能够生成更为精细且全局一致性更强的预测结果。实验结果表明，该架构在大量训练数据支持下，显著提升了密集预测任务的性能。在单目深度估计任务中，相较于当前最先进的全卷积网络，相对性能最高提升了28%。在语义分割任务中，该模型在ADE20K数据集上取得了49.02%的mIoU（平均交并比），刷新了该数据集上的新纪录。此外，我们还证明，该架构在较小规模数据集（如NYUv2、KITTI和Pascal Context）上进行微调后，同样取得了新的最优性能。相关模型代码已开源，可访问 https://github.com/intel-isl/DPT 获取。

源 PDF