
摘要
从单个RGB图像中估计深度是计算机视觉中的一个基本任务,通常最直接地通过监督深度学习来解决。在从单个RGB图像中无监督学习深度的领域,深度并未显式给出。现有研究主要依赖立体图像对、单目视频或多视角图像,并利用基于运动结构的损失函数训练深度估计网络。而在本研究中,我们则依赖于焦距线索来估计深度。我们的学习方法基于一种新颖的点扩散函数(Point Spread Function)卷积层,该层应用了每个图像位置由离焦圆(Circle-Of-Confusion)产生的位置特定核。我们在五个常用的深度估计和光场图像数据集上评估了我们的方法,并展示了在KITTI和Make3D数据集上的结果与监督方法相当,且优于其他无监督学习方法。由于离焦深度现象并非特定于某个数据集,我们假设基于此现象的学习方法会较少过拟合到每个数据集的具体内容。实验结果证实了这一点,使用我们的方法在一个数据集上训练的估计器在其他数据集上提供了更好的结果,优于直接监督的方法。
代码仓库
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| monocular-depth-estimation-on-kitti-eigen | DeepLabV3+ (F10) | absolute relative error: 0.110 |
| monocular-depth-estimation-on-nyu-depth-v2 | DeepLabV3+ (F10) | RMSE: 0.575 |