3 个月前

深入探究自监督单目深度估计的泛化能力

深入探究自监督单目深度估计的泛化能力

摘要

近年来,自监督单目深度估计受到广泛关注。现有研究大多致力于提升在基准数据集(如KITTI)上的性能,但在模型泛化能力方面的实验较为有限。本文系统研究了骨干网络(如CNN、Transformer以及CNN-Transformer混合模型)在单目深度估计任务中对泛化性能的影响。首先,我们在多个训练阶段未见过的公开数据集上评估了当前最先进的模型,以检验其跨数据集的泛化能力。随后,我们通过自定义生成的多种纹理偏移数据集,分析了纹理偏向与形状偏向表征的影响。实验结果表明,Transformer模型表现出显著的形状偏向,而CNN则呈现较强的纹理偏向。进一步发现,相较于纹理偏向模型,形状偏向模型在单目深度估计任务中展现出更优的泛化性能。基于上述观察,本文提出一种新型的CNN-Transformer混合网络——MonoFormer,其核心设计包含一个多层级自适应特征融合模块。该设计的出发点在于:利用Transformer增强模型的形状建模能力,同时通过自适应融合多层级特征来弥补Transformer在局部性建模方面的不足。大量实验结果表明,所提方法在多个公开数据集上均取得了当前最优的性能表现,且在同类方法中展现出最强的泛化能力。

代码仓库

sjg02122/MonoFormer
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
monocular-depth-estimation-on-kitti-eigen-1MonoFormer
Mono: O
Resolution: 640x192
absolute relative error: 0.104

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供