
摘要
我们提出了一种基于超点(superpoint)的新型Transformer架构,用于高效实现大规模三维场景的语义分割。该方法引入了一种快速算法,将点云数据划分为分层的超点结构,使预处理速度比现有的基于超点的方法提升7倍。此外,我们利用自注意力机制捕捉多尺度下超点之间的关联关系,在三个具有挑战性的基准数据集上均取得了当前最优性能:S3DIS(6折验证,mIoU达76.0%)、KITTI-360(验证集达63.5%)以及DALES(达79.6%)。在仅使用21.2万个参数的情况下,本方法的模型规模比其他先进模型最多缩小200倍,同时保持相近的性能表现。此外,该模型在单张GPU上训练一个S3DIS数据集折(fold)仅需3小时,相比性能最佳的现有方法,所需GPU小时数减少7至70倍。相关代码与模型已开源,可通过github.com/drprojects/superpoint_transformer获取。
代码仓库
drprojects/superpoint_transformer
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-semantic-segmentation-on-dales | Superpoint Transformer | Model size: 212K Overall Accuracy: 97.5 mIoU: 79.6 |
| 3d-semantic-segmentation-on-kitti-360 | Superpoint Transformer | Model size: 777K miou Val: 63.5 |
| 3d-semantic-segmentation-on-s3dis | Superpoint Transformer | mAcc: 85.8 mIoU (6-Fold): 76.0 |
| semantic-segmentation-on-s3dis | Superpoint Transformer | Mean IoU: 76.0 Number of params: 0.212M Params (M): 0.212 mAcc: 85.8 mIoU: 76.0 oAcc: 90.4 |
| semantic-segmentation-on-s3dis-area5 | Superpoint Transformer | Number of params: 212K mAcc: 77.3 mIoU: 68.9 oAcc: 89.5 |