6 个月前

摘要

我们提出一种深度神经网络架构，用于从单张图像和稀疏点云中推断稠密深度图。该网络通过视频流及其对应的同步稀疏点云（由激光雷达（LIDAR）或其他测距传感器获取）进行训练，同时利用相机的内参标定参数。在推理阶段，网络接收相机的标定参数（可与训练时不同）、稀疏点云以及单张图像作为输入。其中，一个校准反投影层（Calibrated Backprojection Layer）利用相机标定矩阵和深度特征描述符，将图像中的每个像素反投影至三维空间。生成的三维位置编码与图像特征描述符及前一层的输出拼接，作为编码器下一层的输入。解码器部分通过引入跳跃连接（skip-connections）结构，最终生成稠密深度图。该网络被称为校准反投影网络（Calibrated Backprojection Network, KBNet），其训练过程无需监督信号，仅通过最小化光度重投影误差实现端到端优化。KBNet在训练过程中基于训练集学习缺失深度值的推断方式，而非依赖通用正则化手段。我们在公开的深度补全基准数据集上对KBNet进行了测试，结果表明：当训练与测试使用相同相机时，其性能较当前最优方法分别提升30.5%（室内场景）和8.8%（室外场景）；当测试相机与训练相机不同时，性能提升高达62%。代码已开源，地址为：https://github.com/alexklwong/calibrated-backprojection-network。

源 PDF