
摘要
我们提出3DMV,一种用于室内环境RGB-D扫描数据的三维语义场景分割的新方法,该方法采用联合的三维多视角预测网络。与现有方法仅使用几何信息或RGB数据作为输入不同,我们提出一种联合的端到端网络架构,同时融合这两种数据模态。不同于简单地将彩色图像数据投影至体素网格并在纯三维空间中进行处理(这会导致细节信息不足),我们首先从对应的RGB图像中提取特征图。随后,通过可微分的逆投影层,将这些特征映射到三维网络的体素特征网格中。考虑到我们的目标是处理可能包含大量帧的三维扫描场景,我们引入多视角池化策略,以适应不同数量的RGB输入视角。通过该联合二维-三维架构,我们实现了对RGB与几何特征的自学习融合,显著优于现有基准方法。例如,在ScanNet三维分割基准测试中,我们的方法将准确率从现有体素架构的52.8%提升至75%。
代码仓库
angeladai/3DMV
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| scene-segmentation-on-scannet | 3DMV | Average Accuracy: 75.0% |
| semantic-segmentation-on-scannet | 3DMV | test mIoU: 48.4 |
| semantic-segmentation-on-scannetv2 | 3DMV (2d proj) | Mean IoU: 49.8% |