6 个月前

摘要

三维语义场景补全（3D Semantic Scene Completion, SSC）能够提供密集的几何与语义场景表征，广泛应用于自动驾驶与机器人系统等领域。然而，仅从视觉图像中恢复场景的完整几何结构与语义信息仍面临巨大挑战，而精确的深度信息对于重建三维几何结构至关重要。本文提出首个基于立体视觉的SSC方法——OccDepth，该方法充分挖掘立体图像（或RGBD图像）中隐含的深度信息，以辅助三维几何结构的恢复。为此，本文设计了立体软特征分配模块（Stereo Soft Feature Assignment, Stereo-SFA），通过隐式学习左右视图之间的相关性，更有效地融合三维深度感知特征。特别地，当输入为RGBD图像时，可利用原始RGB图像与深度图生成虚拟立体图像，从而拓展方法的适用范围。此外，本文还引入了占据感知深度模块（Occupancy Aware Depth, OAD），通过知识蒸馏技术，利用预训练的深度估计模型获得具备几何感知能力的三维特征。为进一步评估所提方法，本文还构建了一个改进的TartanAir基准数据集，命名为SemanticTartanAir，用于在SSC任务上对OccDepth方法进行更全面的测试。在SemanticKITTI数据集上的大量实验表明，与当前最先进的基于RGB图像推断的SSC方法相比，OccDepth在mIoU（平均交并比）指标上取得了显著提升，整体提升达+4.82%。其中，由立体图像带来的性能增益为+2.49%，而由本文提出的深度感知方法带来的增益为+2.33%。本文的代码与训练好的模型已公开，可访问GitHub获取：https://github.com/megvii-research/OccDepth。

源 PDF