6 个月前

摘要

自监督学习在单目深度估计中展现出巨大潜力，仅利用图像序列作为监督信号。尽管已有研究尝试使用高分辨率图像进行深度估计，但预测精度并未得到显著提升。本文发现，其根本原因在于大梯度区域中深度估计的不准确，导致随着分辨率提升，双线性插值误差逐渐累积并难以消除。为在大梯度区域实现更精确的深度估计，必须获取兼具空间细节与语义信息的高分辨率特征。为此，本文提出一种改进的DepthNet模型——HR-Depth，包含两项有效策略：（1）重新设计DepthNet中的跳跃连接结构，以获得更优的高分辨率特征；（2）提出一种新型特征融合模块——Squeeze-and-Excitation特征融合模块（fSE），实现更高效的特征融合。以ResNet-18作为编码器时，HR-Depth在高分辨率与低分辨率场景下均以最少的参数量超越所有先前的最先进（SoTA）方法。此外，以往的最先进方法通常依赖结构复杂且参数量庞大的深层网络，严重限制了其实际应用潜力。因此，本文进一步构建了一种轻量级网络结构，采用MobileNetV3作为编码器。实验结果表明，该轻量级网络在高分辨率下的性能可与Monodepth2等大型模型相媲美，且仅需其约20%的参数量。所有代码与模型将公开于：https://github.com/shawLyu/HR-Depth。

源 PDF