
摘要
我们提出了一种名为PanopticFusion的新颖在线体素语义映射系统,该系统能够在“背景区域”(stuff)和“前景对象”(things)的层面上进行密集预测。与以往的语义映射系统不同,PanopticFusion不仅能够对背景区域进行密集的类别标签预测,还能对任意前景对象进行单独分割。此外,由于采用了空间哈希体素地图表示方法,我们的系统还具备大规模场景重建和提取带标签网格的能力。系统首先通过融合2D语义分割和实例分割的输出结果,为传入的RGB帧预测像素级全景标签(包括背景区域的类别标签和前景对象的实例ID)。在将预测的全景标签与深度测量值一起整合到体素地图中时,通过参考当前时刻的3D地图来保持实例ID的一致性,因为这些ID可能会随帧变化而变化。此外,我们构建了一个关于全景标签的全连接条件随机场(CRF)模型来进行地图正则化。为了实现在线CRF推理,我们提出了一种新的单元势近似方法和一种地图划分策略。我们在ScanNet(v2)数据集上评估了系统的性能。PanopticFusion在语义分割和实例分割基准测试中均优于或可与最先进的离线3D深度神经网络(DNN)方法相媲美。此外,我们还展示了利用该系统生成的3D全景图在增强现实应用中的潜力。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| panoptic-segmentation-on-scannet | PanopticFusion | PQ: 33.5 PQ_st: 58.4 PQ_th: 30.8 |
| panoptic-segmentation-on-scannetv2 | PanopticFusion (with CRF) | PQ: 33.5 Params (M): N/A RQ: 45.3 SQ: 73.0 |
| semantic-segmentation-on-scannet | PanopticFusion | test mIoU: 52.9 |