HyperAIHyperAI

Command Palette

Search for a command to run...

视觉Transformer在密集预测中的应用

René Ranftl Alexey Bochkovskiy Vladlen Koltun

摘要

我们提出了一种密集视觉Transformer(Dense Vision Transformers)架构,该架构将视觉Transformer(Vision Transformer)作为主干网络,替代传统的卷积神经网络,用于密集预测任务。该方法从视觉Transformer的不同阶段提取特征令牌(tokens),构建出具有多分辨率的图像化表示,并通过一个卷积解码器逐步融合这些表示,最终生成全分辨率的预测结果。与传统全卷积网络相比,该Transformer主干在每一阶段均以恒定且相对较高的分辨率处理特征表示,并具备全局感受野。这一特性使得密集视觉Transformer在密集预测任务中能够生成更为精细且全局一致性更强的预测结果。实验结果表明,该架构在大量训练数据支持下,显著提升了密集预测任务的性能。在单目深度估计任务中,相较于当前最先进的全卷积网络,相对性能最高提升了28%。在语义分割任务中,该模型在ADE20K数据集上取得了49.02%的mIoU(平均交并比),刷新了该数据集上的新纪录。此外,我们还证明,该架构在较小规模数据集(如NYUv2、KITTI和Pascal Context)上进行微调后,同样取得了新的最优性能。相关模型代码已开源,可访问 https://github.com/intel-isl/DPT 获取。


用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码
开箱即用的 GPU
最优定价

HyperAI Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
视觉Transformer在密集预测中的应用 | 论文 | HyperAI超神经