
摘要
深度学习模型的快速发展很大程度上得益于其能够利用海量训练数据。相比之下,这一优势尚未充分惠及三维(3D)深度学习领域,主要原因在于大规模3D数据集的稀缺。将多个现有数据源进行融合,并让它们协同训练一个统一模型,是一种潜在的解决方案。然而,由于不同3D点云数据集之间存在较大的域差异,这种多源监督可能导致模型性能下降,甚至引发负迁移(negative transfer)现象,使其表现劣于单一数据集上的训练结果。针对这一挑战,本文提出了一种名为点提示训练(Point Prompt Training, PPT)的新框架,旨在实现三维表示学习中多数据集协同学习的高效融合。该框架支持多种预训练范式,具备良好的通用性。基于此框架,我们进一步提出了两种关键技术:提示驱动的归一化(Prompt-driven Normalization),通过引入具有领域特性的提示(prompt)来适应不同数据集;以及语言引导的类别对齐(Language-guided Categorical Alignment),利用标签文本之间的语义关系,有效统一多数据集的标签空间。大量实验验证表明,PPT能够有效克服协同学习带来的负迁移问题,生成具备强泛化能力的三维表示。特别地,在采用单一共享权重模型进行监督式多数据集训练的情况下,PPT在每个数据集上均取得了当前最优的性能表现。此外,当作为预训练框架使用时,PPT在表示质量方面显著优于其他预训练方法,并在超过十项涵盖室内外多种三维场景的下游任务中,均实现了显著的、具有竞争力的最先进性能。
代码仓库
Pointcept/Pointcept
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-semantic-segmentation-on-scannet200 | PPT+SparseUNet | test mIoU: 33.2 val mIoU: 31.9 |
| 3d-semantic-segmentation-on-semantickitti | PPT+SparseUNet | val mIoU: 71.4% |
| lidar-semantic-segmentation-on-nuscenes | PPT+SparseUNet | val mIoU: 0.786 |
| semantic-segmentation-on-s3dis | PPT + SparseUNet | Mean IoU: 78.1 Number of params: N/A mAcc: 85.4 oAcc: 92.2 |
| semantic-segmentation-on-s3dis-area5 | PPT + SparseUNet | Number of params: N/A mAcc: 78.2 mIoU: 72.7 oAcc: 91.5 |
| semantic-segmentation-on-scannet | PPT + SparseUNet | test mIoU: 76.6 val mIoU: 76.4 |