7 个月前

卷积神经网络

计算机视觉

Clément Godard Oisin Mac Aodha Michael Firman Gabriel Brostow

摘要

逐像素获取地面真实深度数据在大规模应用中具有挑战性。为了解决这一限制，自监督学习作为一种有前景的替代方法，已用于训练模型以执行单目深度估计。在本文中，我们提出了一系列改进措施，这些改进措施共同使得生成的深度图在定量和定性方面均优于现有的自监督方法。单目自监督训练的研究通常探索越来越复杂的架构、损失函数和图像形成模型，这些方法最近帮助缩小了与全监督方法之间的差距。我们展示了令人惊讶的是，一个相对简单的模型及其相关设计选择可以产生更优的预测结果。具体而言，我们提出了（i）最小重投影损失（minimum reprojection loss），旨在稳健地处理遮挡问题；（ii）全分辨率多尺度采样方法（full-resolution multi-scale sampling method），该方法减少了视觉伪影；以及（iii）自动掩码损失（auto-masking loss），用于忽略违反相机运动假设的训练像素。我们在独立验证每个组件的有效性，并在KITTI基准测试上展示了高质量、最先进的结果。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

7 个月前

卷积神经网络

计算机视觉

Clément Godard Oisin Mac Aodha Michael Firman Gabriel Brostow

摘要

逐像素获取地面真实深度数据在大规模应用中具有挑战性。为了解决这一限制，自监督学习作为一种有前景的替代方法，已用于训练模型以执行单目深度估计。在本文中，我们提出了一系列改进措施，这些改进措施共同使得生成的深度图在定量和定性方面均优于现有的自监督方法。单目自监督训练的研究通常探索越来越复杂的架构、损失函数和图像形成模型，这些方法最近帮助缩小了与全监督方法之间的差距。我们展示了令人惊讶的是，一个相对简单的模型及其相关设计选择可以产生更优的预测结果。具体而言，我们提出了（i）最小重投影损失（minimum reprojection loss），旨在稳健地处理遮挡问题；（ii）全分辨率多尺度采样方法（full-resolution multi-scale sampling method），该方法减少了视觉伪影；以及（iii）自动掩码损失（auto-masking loss），用于忽略违反相机运动假设的训练像素。我们在独立验证每个组件的有效性，并在KITTI基准测试上展示了高质量、最先进的结果。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供