3 个月前

NeW CRFs:用于单目深度估计的神经窗口全连接CRFs

NeW CRFs:用于单目深度估计的神经窗口全连接CRFs

摘要

从单张图像准确估计深度是一项具有挑战性的任务,因为该问题本质上具有歧义性且属于病态问题。尽管近期研究致力于设计日益复杂且强大的网络以直接回归深度图,我们则选择采用条件随机场(CRFs)优化的路径。由于计算成本较高,传统的CRFs通常仅在局部邻域内进行,而非在整个图上执行。为充分发挥全连接CRFs(FC-CRFs)的潜力,我们采用分窗策略:将输入图像划分为多个窗口,在每个窗口内独立执行FC-CRF优化,从而显著降低计算复杂度,使全连接CRFs在实际应用中成为可行方案。为进一步捕捉图中节点之间的复杂关系,我们引入多头注意力机制,构建多头势函数(multi-head potential function),并将该函数作为输入馈入神经网络,以输出优化后的深度图。在此基础上,我们设计了一个自下而上、自上而下的网络结构:其中,神经网络化的窗口化FC-CRF模块作为解码器,而视觉Transformer(Vision Transformer)则作为编码器。实验结果表明,与以往方法相比,我们的方法在KITTI和NYUv2两个数据集上的各项指标上均实现了显著性能提升。此外,所提出的方法可直接应用于全景图像,并在MatterPort3D数据集上超越了所有现有的全景深度估计方法。项目主页:https://weihaosky.github.io/newcrfs。

代码仓库

aliyun/NeWCRFs
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
monocular-depth-estimation-on-kitti-eigenNeWCRFs
Delta u003c 1.25: 0.974
Delta u003c 1.25^2: 0.997
Delta u003c 1.25^3: 0.999
RMSE: 2.129
RMSE log: 0.079
Sq Rel: 0.155
absolute relative error: 0.052
monocular-depth-estimation-on-matterport3dNeWCRFs
Delta u003c 1.25: 0.9376
Delta u003c 1.25^2: 0.9812
Delta u003c 1.25^3: 0.9933
RMSE: 0.4279
absolute error: 0.197
absolute relative error: 0.0793
monocular-depth-estimation-on-nyu-depth-v2NeWCRFs
Delta u003c 1.25: 0.922
Delta u003c 1.25^2: 0.992
Delta u003c 1.25^3: 0.998
RMSE: 0.334
absolute relative error: 0.095
log 10: 0.041

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
NeW CRFs:用于单目深度估计的神经窗口全连接CRFs | 论文 | HyperAI超神经