Command Palette
Search for a command to run...
视觉Transformer在密集预测中的应用
视觉Transformer在密集预测中的应用
René Ranftl Alexey Bochkovskiy Vladlen Koltun
摘要
我们提出了一种密集视觉Transformer(Dense Vision Transformers)架构,该架构将视觉Transformer(Vision Transformer)作为主干网络,替代传统的卷积神经网络,用于密集预测任务。该方法从视觉Transformer的不同阶段提取特征令牌(tokens),构建出具有多分辨率的图像化表示,并通过一个卷积解码器逐步融合这些表示,最终生成全分辨率的预测结果。与传统全卷积网络相比,该Transformer主干在每一阶段均以恒定且相对较高的分辨率处理特征表示,并具备全局感受野。这一特性使得密集视觉Transformer在密集预测任务中能够生成更为精细且全局一致性更强的预测结果。实验结果表明,该架构在大量训练数据支持下,显著提升了密集预测任务的性能。在单目深度估计任务中,相较于当前最先进的全卷积网络,相对性能最高提升了28%。在语义分割任务中,该模型在ADE20K数据集上取得了49.02%的mIoU(平均交并比),刷新了该数据集上的新纪录。此外,我们还证明,该架构在较小规模数据集(如NYUv2、KITTI和Pascal Context)上进行微调后,同样取得了新的最优性能。相关模型代码已开源,可访问 https://github.com/intel-isl/DPT 获取。