3 个月前

Depth Anything:释放大规模无标签数据的潜力

Depth Anything:释放大规模无标签数据的潜力

摘要

本文提出Depth Anything,一种高效实用的鲁棒单目深度估计解决方案。我们并未追求新颖的技术模块,而是致力于构建一个简单却强大的基础模型,能够应对任意图像在任何场景下的深度估计任务。为此,我们设计了一套数据引擎,用于收集并自动标注大规模未标注数据(约6200万张),显著扩展了数据覆盖范围,从而有效降低模型的泛化误差。我们探索了两种简单但高效的数据扩展策略,使大规模数据训练成为可能:其一,利用数据增强工具构建更具挑战性的优化目标,促使模型主动挖掘额外的视觉知识,获得更鲁棒的特征表示;其二,引入辅助监督机制,引导模型从预训练编码器中继承丰富的语义先验信息。我们对模型的零样本泛化能力进行了全面评估,涵盖六个公开数据集及随机拍摄的图像,结果展现出出色的泛化性能。进一步地,通过在NYUv2和KITTI数据集的度量深度信息上进行微调,模型取得了新的SOTA(State-of-the-Art)水平。此外,我们所构建的更优深度模型也显著提升了深度条件控制网络(depth-conditioned ControlNet)的性能。相关模型已开源,访问地址为:https://github.com/LiheYoung/Depth-Anything。

代码仓库

duan-song/SATNet
pytorch
GitHub 中提及
fabio-sim/Depth-Anything-ONNX
pytorch
GitHub 中提及
JTRNEO/SynRS3D
pytorch
GitHub 中提及
greatenanoymous/monodpt_grasp
pytorch
GitHub 中提及
LiheYoung/Depth-Anything
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
monocular-depth-estimation-on-eth3dDepth Anything
Delta u003c 1.25: 0.882
absolute relative error: 0.0127
monocular-depth-estimation-on-kitti-eigenDepth Anything
Delta u003c 1.25: 0.982
Delta u003c 1.25^2: 0.998
Delta u003c 1.25^3: 1.000
RMSE: 1.896
RMSE log: 0.069
Sq Rel: 0.121
absolute relative error: 0.046
monocular-depth-estimation-on-nyu-depth-v2Depth Anything
Delta u003c 1.25: 0.984
Delta u003c 1.25^2: 0.998
Delta u003c 1.25^3: 1.000
RMSE: 0.206
absolute relative error: 0.056
log 10: 0.024
semantic-segmentation-on-cityscapesDepth Anything
Mean IoU (class): 84.8%
semantic-segmentation-on-cityscapes-valDepth Anything
mIoU: 86.2

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Depth Anything:释放大规模无标签数据的潜力 | 论文 | HyperAI超神经