3 个月前

视觉Transformer在密集预测中的应用

视觉Transformer在密集预测中的应用

摘要

我们提出了一种密集视觉Transformer(Dense Vision Transformers)架构,该架构将视觉Transformer(Vision Transformer)作为主干网络,替代传统的卷积神经网络,用于密集预测任务。该方法从视觉Transformer的不同阶段提取特征令牌(tokens),构建出具有多分辨率的图像化表示,并通过一个卷积解码器逐步融合这些表示,最终生成全分辨率的预测结果。与传统全卷积网络相比,该Transformer主干在每一阶段均以恒定且相对较高的分辨率处理特征表示,并具备全局感受野。这一特性使得密集视觉Transformer在密集预测任务中能够生成更为精细且全局一致性更强的预测结果。实验结果表明,该架构在大量训练数据支持下,显著提升了密集预测任务的性能。在单目深度估计任务中,相较于当前最先进的全卷积网络,相对性能最高提升了28%。在语义分割任务中,该模型在ADE20K数据集上取得了49.02%的mIoU(平均交并比),刷新了该数据集上的新纪录。此外,我们还证明,该架构在较小规模数据集(如NYUv2、KITTI和Pascal Context)上进行微调后,同样取得了新的最优性能。相关模型代码已开源,可访问 https://github.com/intel-isl/DPT 获取。

代码仓库

antocad/FocusOnDepth
pytorch
GitHub 中提及
isl-org/MiDaS
pytorch
GitHub 中提及
alexeyab/midas
pytorch
GitHub 中提及
vishal-kataria/MiDaS-master
pytorch
GitHub 中提及
EPFL-VILAB/3DCommonCorruptions
pytorch
GitHub 中提及
huggingface/transformers
pytorch
GitHub 中提及
chriswxho/dynamic-inference
pytorch
GitHub 中提及
SforAiDl/vformer
pytorch
GitHub 中提及
intel-isl/MiDaS
pytorch
GitHub 中提及
ahmedmostafa0x61/Depth_Estimation
pytorch
GitHub 中提及
danielzgsilva/MonoDepthAttacks
pytorch
GitHub 中提及

基准测试

基准方法指标
monocular-depth-estimation-on-eth3dDPT
Delta u003c 1.25: 0.0946
absolute relative error: 0.078
monocular-depth-estimation-on-kitti-eigenDPT-Hybrid
Delta u003c 1.25: 0.959
Delta u003c 1.25^2: 0.995
Delta u003c 1.25^3: 0.999
RMSE: 2.573
RMSE log: 0.092
absolute relative error: 0.062
monocular-depth-estimation-on-nyu-depth-v2DPT-Hybrid
Delta u003c 1.25: 0.904
Delta u003c 1.25^2: 0.988
Delta u003c 1.25^3: 0.994
RMSE: 0.357
absolute relative error: 0.110
log 10: 0.045
semantic-segmentation-on-ade20kDPT-Hybrid
Validation mIoU: 49.02
semantic-segmentation-on-ade20k-valDPT-Hybrid
Pixel Accuracy: 83.11
mIoU: 49.02
semantic-segmentation-on-pascal-contextDPT-Hybrid
mIoU: 60.46

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
视觉Transformer在密集预测中的应用 | 论文 | HyperAI超神经