3 个月前

基于校准反投影层的无监督深度补全

基于校准反投影层的无监督深度补全

摘要

我们提出一种深度神经网络架构,用于从单张图像和稀疏点云中推断稠密深度图。该网络通过视频流及其对应的同步稀疏点云(由激光雷达(LIDAR)或其他测距传感器获取)进行训练,同时利用相机的内参标定参数。在推理阶段,网络接收相机的标定参数(可与训练时不同)、稀疏点云以及单张图像作为输入。其中,一个校准反投影层(Calibrated Backprojection Layer)利用相机标定矩阵和深度特征描述符,将图像中的每个像素反投影至三维空间。生成的三维位置编码与图像特征描述符及前一层的输出拼接,作为编码器下一层的输入。解码器部分通过引入跳跃连接(skip-connections)结构,最终生成稠密深度图。该网络被称为校准反投影网络(Calibrated Backprojection Network, KBNet),其训练过程无需监督信号,仅通过最小化光度重投影误差实现端到端优化。KBNet在训练过程中基于训练集学习缺失深度值的推断方式,而非依赖通用正则化手段。我们在公开的深度补全基准数据集上对KBNet进行了测试,结果表明:当训练与测试使用相同相机时,其性能较当前最优方法分别提升30.5%(室内场景)和8.8%(室外场景);当测试相机与训练相机不同时,性能提升高达62%。代码已开源,地址为:https://github.com/alexklwong/calibrated-backprojection-network。

代码仓库

基准测试

基准方法指标
depth-completion-on-kitti-depth-completionKBNet
MAE: 256.76
RMSE: 1069.47
Runtime [ms]: 16
iMAE: 1.02
iRMSE: 2.95
depth-completion-on-voidKBNet
MAE: 39.80
RMSE: 95.86
iMAE: 21.16
iRMSE: 49.72

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于校准反投影层的无监督深度补全 | 论文 | HyperAI超神经