
摘要
我们提出了一种密集视觉Transformer(Dense Vision Transformers)架构,该架构将视觉Transformer(Vision Transformer)作为主干网络,替代传统的卷积神经网络,用于密集预测任务。该方法从视觉Transformer的不同阶段提取特征令牌(tokens),构建出具有多分辨率的图像化表示,并通过一个卷积解码器逐步融合这些表示,最终生成全分辨率的预测结果。与传统全卷积网络相比,该Transformer主干在每一阶段均以恒定且相对较高的分辨率处理特征表示,并具备全局感受野。这一特性使得密集视觉Transformer在密集预测任务中能够生成更为精细且全局一致性更强的预测结果。实验结果表明,该架构在大量训练数据支持下,显著提升了密集预测任务的性能。在单目深度估计任务中,相较于当前最先进的全卷积网络,相对性能最高提升了28%。在语义分割任务中,该模型在ADE20K数据集上取得了49.02%的mIoU(平均交并比),刷新了该数据集上的新纪录。此外,我们还证明,该架构在较小规模数据集(如NYUv2、KITTI和Pascal Context)上进行微调后,同样取得了新的最优性能。相关模型代码已开源,可访问 https://github.com/intel-isl/DPT 获取。
代码仓库
mszpc/3d_dense
mindspore
antocad/FocusOnDepth
pytorch
GitHub 中提及
isl-org/MiDaS
pytorch
GitHub 中提及
kritiksoman/GIMP-ML
pytorch
alexeyab/midas
pytorch
GitHub 中提及
vishal-kataria/MiDaS-master
pytorch
GitHub 中提及
EPFL-VILAB/3DCommonCorruptions
pytorch
GitHub 中提及
Expedit-LargeScale-Vision-Transformer/Expedit-DPT
pytorch
GitHub 中提及
huggingface/transformers
pytorch
GitHub 中提及
chriswxho/dynamic-inference
pytorch
GitHub 中提及
SforAiDl/vformer
pytorch
GitHub 中提及
intel-isl/MiDaS
pytorch
GitHub 中提及
ahmedmostafa0x61/Depth_Estimation
pytorch
GitHub 中提及
danielzgsilva/MonoDepthAttacks
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| monocular-depth-estimation-on-eth3d | DPT | Delta u003c 1.25: 0.0946 absolute relative error: 0.078 |
| monocular-depth-estimation-on-kitti-eigen | DPT-Hybrid | Delta u003c 1.25: 0.959 Delta u003c 1.25^2: 0.995 Delta u003c 1.25^3: 0.999 RMSE: 2.573 RMSE log: 0.092 absolute relative error: 0.062 |
| monocular-depth-estimation-on-nyu-depth-v2 | DPT-Hybrid | Delta u003c 1.25: 0.904 Delta u003c 1.25^2: 0.988 Delta u003c 1.25^3: 0.994 RMSE: 0.357 absolute relative error: 0.110 log 10: 0.045 |
| semantic-segmentation-on-ade20k | DPT-Hybrid | Validation mIoU: 49.02 |
| semantic-segmentation-on-ade20k-val | DPT-Hybrid | Pixel Accuracy: 83.11 mIoU: 49.02 |
| semantic-segmentation-on-pascal-context | DPT-Hybrid | mIoU: 60.46 |