6 个月前

计算机视觉

卷积神经网络

计算机视觉

Xiaodong Yang Zhuang Ma Zhiyu Ji Zhe Ren

摘要

单目深度估计是一个病态问题，因为同一幅二维图像可能源自无限多种三维场景的投影。尽管该领域领先算法已取得显著进展，但其性能本质上依赖于特定的图像表观特征与相机参数（即内参和外参）的组合，严重限制了其在真实场景中的泛化能力。为应对这一挑战，本文提出一种新颖的地面嵌入模块（ground embedding module），旨在将相机参数与图像视觉线索解耦，从而提升模型的泛化性能。在给定相机参数的前提下，该模块生成地面深度图，并将其与输入图像拼接，作为最终深度预测的参考。模块中设计了地面注意力机制，以最优方式融合地面深度与残差深度。所提出的地面嵌入模块具有高度灵活性与轻量化特性，可作为即插即用的模块，无缝集成至多种深度估计网络中。实验结果表明，该方法在多个主流基准测试上均取得了当前最优性能，更重要的是，在广泛多域跨域测试中展现出显著的泛化能力提升。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

计算机视觉

卷积神经网络

计算机视觉

Xiaodong Yang Zhuang Ma Zhiyu Ji Zhe Ren

摘要

单目深度估计是一个病态问题，因为同一幅二维图像可能源自无限多种三维场景的投影。尽管该领域领先算法已取得显著进展，但其性能本质上依赖于特定的图像表观特征与相机参数（即内参和外参）的组合，严重限制了其在真实场景中的泛化能力。为应对这一挑战，本文提出一种新颖的地面嵌入模块（ground embedding module），旨在将相机参数与图像视觉线索解耦，从而提升模型的泛化性能。在给定相机参数的前提下，该模块生成地面深度图，并将其与输入图像拼接，作为最终深度预测的参考。模块中设计了地面注意力机制，以最优方式融合地面深度与残差深度。所提出的地面嵌入模块具有高度灵活性与轻量化特性，可作为即插即用的模块，无缝集成至多种深度估计网络中。实验结果表明，该方法在多个主流基准测试上均取得了当前最优性能，更重要的是，在广泛多域跨域测试中展现出显著的泛化能力提升。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

GEDepth：单目深度估计中的基础嵌入 | 论文 | HyperAI超神经