
摘要
近年来,自监督单目深度估计受到广泛关注。现有研究大多致力于提升在基准数据集(如KITTI)上的性能,但在模型泛化能力方面的实验较为有限。本文系统研究了骨干网络(如CNN、Transformer以及CNN-Transformer混合模型)在单目深度估计任务中对泛化性能的影响。首先,我们在多个训练阶段未见过的公开数据集上评估了当前最先进的模型,以检验其跨数据集的泛化能力。随后,我们通过自定义生成的多种纹理偏移数据集,分析了纹理偏向与形状偏向表征的影响。实验结果表明,Transformer模型表现出显著的形状偏向,而CNN则呈现较强的纹理偏向。进一步发现,相较于纹理偏向模型,形状偏向模型在单目深度估计任务中展现出更优的泛化性能。基于上述观察,本文提出一种新型的CNN-Transformer混合网络——MonoFormer,其核心设计包含一个多层级自适应特征融合模块。该设计的出发点在于:利用Transformer增强模型的形状建模能力,同时通过自适应融合多层级特征来弥补Transformer在局部性建模方面的不足。大量实验结果表明,所提方法在多个公开数据集上均取得了当前最优的性能表现,且在同类方法中展现出最强的泛化能力。
代码仓库
sjg02122/MonoFormer
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| monocular-depth-estimation-on-kitti-eigen-1 | MonoFormer | Mono: O Resolution: 640x192 absolute relative error: 0.104 |