
摘要
三维点云的语义分割、实例分割与全景分割通常采用结构各异的任务专用模型来分别处理,导致各类分割任务之间的内在相似性及其隐含关联未能得到充分挖掘与利用。本文提出一种统一、简洁且高效的模型——OneFormer3D,能够联合解决上述三类分割任务。该模型通过一组可学习的核函数(learnable kernels)实现一致的实例与语义分割,其中每个核函数负责生成对应实例或语义类别的一张掩码。这些核函数在基于Transformer的解码器中进行训练,统一的实例与语义查询作为输入传递至解码器。该设计使得模型能够在单次端到端训练中完成优化,从而在三项分割任务上均实现顶尖性能。具体而言,我们的OneFormer3D在ScanNet测试排行榜上位列第一,并创下新的最先进水平(mAP50提升+2.1)。此外,我们在ScanNet数据集的语义分割、实例分割与全景分割任务中均取得当前最优结果(PQ提升+21),在ScanNet200数据集上实现mAP50提升+3.8,在S3DIS数据集上实现mIoU提升+0.8。
代码仓库
oneformer3d/oneformer3d
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-instance-segmentation-on-s3dis | OneFormer3D | AP@50: 75.8 mAP: 63.0 mPrec: 82.3 mRec: 74.1 |
| 3d-instance-segmentation-on-scannetv2 | OneFromer3D | mAP: 56.6 mAP @ 50: 80.1 mAP@25: 89.6 |
| 3d-object-detection-on-scannetv2 | OneFormer3D | mAP@0.25: 76.9 mAP@0.5: 65.3 |
| 3d-semantic-segmentation-on-s3dis | OneFormer3D | mIoU (6-Fold): 75.0 mIoU (Area-5): 72.4 |
| 3d-semantic-segmentation-on-scannet200 | OneFormer3D | val mIoU: 30.1 |
| panoptic-segmentation-on-scannet | OneFormer3D | PQ: 71.2 PQ_st: 86.1 PQ_th: 69.6 |
| panoptic-segmentation-on-scannetv2 | OneFormer3D | PQ: 71.2 |
| semantic-segmentation-on-scannet | OneFormer3D | val mIoU: 76.6 |