3 个月前

通过实例感知的投影一致性学习动态场景下的单目深度

通过实例感知的投影一致性学习动态场景下的单目深度

摘要

我们提出了一种端到端的联合训练框架,在单目相机设置下,无需监督即可显式建模多个动态物体的6-DoF运动、自身运动(ego-motion)以及深度信息。本工作的技术贡献主要体现在三个方面:首先,我们在建模每个刚性物体独立运动时,指出了逆向投影与正向投影之间的根本差异,并提出了一种基于神经正向投影模块的几何上正确的投影流程;其次,我们设计了一种统一的、实例感知的光度与几何一致性损失函数,能够对所有背景区域和物体区域整体施加自监督信号;最后,我们引入了一种通用的自动标注方案,仅需任意现成的实例分割模型与光流模型,即可生成视频实例分割图,作为本训练框架的输入数据。上述各项技术组件均通过详尽的消融实验得到了验证。在KITTI和Cityscapes数据集上进行的大量实验表明,本框架在深度估计与运动估计方面均优于当前最先进的方法。相关代码、数据集及模型已开源,地址为:https://github.com/SeokjuLee/Insta-DM。

代码仓库

SeokjuLee/Insta-DM
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
monocular-depth-estimation-on-cityscapesLee et al.
Absolute relative error (AbsRel): 0.111
RMSE: 6.437
RMSE log: 0.182
Square relative error (SqRel): 1.158

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
通过实例感知的投影一致性学习动态场景下的单目深度 | 论文 | HyperAI超神经