3 个月前

ManyDepth2:动态场景中面向运动感知的自监督单目深度估计

ManyDepth2:动态场景中面向运动感知的自监督单目深度估计

摘要

尽管自监督单目深度估计技术取得了显著进展,但在动态场景下仍面临诸多挑战,主要源于对静态世界假设的依赖。本文提出 Manydepth2,旨在实现对动态物体与静态背景的高精度深度估计,同时保持良好的计算效率。为应对动态内容带来的挑战,我们引入光流与粗略单目深度信息,构建一个伪静态参考帧。该参考帧与原始目标帧协同,用于生成具备运动感知能力的代价体(motion-aware cost volume)。此外,为提升网络架构的准确性与鲁棒性,我们提出一种基于注意力机制的深度估计网络,通过融合通道注意力与非局部注意力机制,有效整合多尺度特征图中的信息。在与计算开销相近的方法对比中,Manydepth2 在 KITTI-2015 数据集上的自监督单目深度估计任务中,均方根误差(RMSE)显著降低了约 5%。代码已开源,地址为:https://github.com/kaichen-z/Manydepth2。

代码仓库

kaichen-z/rad
pytorch
GitHub 中提及

基准测试

基准方法指标
camera-pose-estimation-on-kitti-odometryManydepth2
Average Rotational Error er[%]: 2.205
Average Translational Error et[%]: 7.15
monocular-depth-estimation-on-cityscapesManydepth2
Absolute relative error (AbsRel): 0.097
RMSE: 5.827
RMSE log: 0.154
Square relative error (SqRel): 0.792
monocular-depth-estimation-on-kitti-eigenManydepth2
Delta u003c 1.25: 0.909
Delta u003c 1.25^2: 0.968
Delta u003c 1.25^3: 0.984
RMSE: 4.232
RMSE log: 0.649
Sq Rel: 0.170
absolute relative error: 0.091
monocular-depth-estimation-on-kitti-eigen-1Manydepth2(M+640x192)
Delta u003c 1.25: 0.909
Delta u003c 1.25^2: 0.968
Delta u003c 1.25^3: 0.984
Mono: O
RMSE: 4.232
RMSE log: 0.170
Resolution: 640x192
Sq Rel: 0.649
absolute relative error: 0.091
monocular-depth-estimation-on-kitti-eigen-1Manydepth2-NF(M+640x192)
Delta u003c 1.25: 0.909
Delta u003c 1.25^2: 0.968
Delta u003c 1.25^3: 0.985
Mono: O
RMSE: 4.246
RMSE log: 0.170
Resolution: 640x192
Sq Rel: 0.676
absolute relative error: 0.094

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ManyDepth2:动态场景中面向运动感知的自监督单目深度估计 | 论文 | HyperAI超神经