
摘要
场景图(scene graphs)是一种紧凑且显式的表示方法,在多种二维场景理解任务中取得了成功应用。本文提出一种方法,能够从一系列RGB-D帧中,逐步构建三维环境下的语义场景图。为此,我们利用图神经网络(graph neural network)对原始场景组件的PointNet特征进行聚合。此外,我们还提出了一种新型注意力机制,特别适用于此类增量重建场景中常见的部分缺失或不完整图结构数据。尽管本方法主要针对场景的子地图进行设计,但我们证明其同样可有效应用于完整的三维场景。实验结果表明,该方法在3D场景图预测任务上的性能显著优于现有方法,其精度与当前先进的3D语义分割和全景分割方法相当,同时运行速度可达35 Hz。
代码仓库
ShunChengWu/3DSSG
官方
pytorch
GitHub 中提及
ShunChengWu/SceneGraphFusion
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-object-classification-on-3r-scan-1 | 3DSSG [Wald2020_3dssg] | Top-10 Accuracy: 0.78 Top-5 Accuracy: 0.68 |
| 3d-object-classification-on-3r-scan-1 | SceneGraphFusion | Top-10 Accuracy: 0.8 Top-5 Accuracy: 0.7 |
| panoptic-segmentation-on-scannet | SceneGraphFusion | PQ: 31.5 PQ_st: 43.4 PQ_th: 30.2 |
| panoptic-segmentation-on-scannetv2 | SceneGraphFusion (NN mapping) | PQ: 31.5 Params (M): 2.9 RQ: 42.2 SQ: 72.9 |
| scene-graph-generation-on-3r-scan-1 | SceneGraphFusion | Top-5 Accuracy: 0.87 |
| scene-graph-generation-on-3r-scan-1 | 3DSSG [Wald2020_3dssg] | Top-5 Accuracy: 0.66 |