
摘要
当前的单图像深度估计方法通常使用包含真实图像-深度对或立体图像对的训练数据集,这些数据集不易获取。我们提出了一种框架,该框架在合成图像-深度对和未配对的真实图像上进行训练,包括一个用于增强输入图像真实感的图像翻译网络,以及一个后续的深度预测网络。一个关键的想法是让第一个网络充当广谱输入翻译器,能够接收合成图像或真实图像,并理想地生成尽可能少修改的真实感图像。当训练输入为真实图像时,通过重建损失实现这一目标;而当输入为合成图像时,则通过生成对抗网络(GAN)损失来实现,从而消除了启发式自正则化的需要。第二个网络则在合成图像-深度对的任务损失上进行训练,并额外加入生成对抗网络(GAN)损失以统一真实和合成特征分布。重要的是,该框架可以端到端地进行训练,从而获得良好的结果,甚至超过了早期使用真实配对数据的深度学习方法。
代码仓库
lyndonzheng/Synthetic2Realistic
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| depth-estimation-on-dcm | T2Net | Abs Rel: 0.351 RMSE: 1.117 RMSE log: 0.415 Sq Rel: 0.416 |
| depth-estimation-on-ebdtheque | T2Net | Abs Rel: 0.491 RMSE: 1.459 RMSE log: 0.777 Sq Rel: 0.555 |
| unsupervised-domain-adaptation-on-virtual-2 | T2Net | RMSE : 4.674 |