摘要
自监督学习在自然语言处理与二维视觉领域已取得显著成功,其中掩码建模(masked modeling)作为一种广受欢迎的预训练范式被广泛应用。然而,将掩码机制扩展至结合局部与全局特征的三维点云理解任务中,仍面临全新挑战。在本工作中,我们提出 Point-LGMask,一种新颖的方法,通过多比例掩码策略同时嵌入点云的局部与全局上下文信息,该方法在自监督点云特征学习中表现优异,但却未被现有预训练方法所重视。具体而言,为避免模型过度适应固定掩码比例,我们首次提出多比例掩码机制,通过设置不同难度的重建任务,促使编码器充分探索具有代表性的特征。为进一步促进局部与全局特征的联合建模,我们设计了一种复合损失函数,包含两个组成部分:(i)全局表示对比损失,用于促使被掩码点云的聚类分配与完整输入保持一致;(ii)局部点云预测损失,以提升对被掩码点的精准重建能力。基于 Point-LGMask,我们验证了所学特征在多种下游任务中的良好迁移性能,涵盖少样本分类、形状分类、物体部件分割,以及真实场景下的三维物体检测与三维语义分割任务。特别地,在真实采集的 ScanObjectNN 数据集上进行少样本分类任务时,我们的模型相较当前第二佳方法显著提升超过 4%,大幅推进了现有预训练方法的性能上限。此外,在三维物体检测任务中,相较于次优方法,Point-LGMask 分别实现了 0.4% AP25 和 0.8% AP50 的提升;在三维语义分割任务中,mAcc 与 mIoU 分别提升 0.4% 和 0.5%。相关代码已开源,地址为:https://github.com/TangYuan96/Point-LGMask
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-point-cloud-classification-on-scanobjectnn | Point-LGMask | OBJ-BG (OA): 89.8 OBJ-ONLY (OA): 89.3 Overall Accuracy: 85.3 |
| few-shot-3d-point-cloud-classification-on-1 | Point-LGMask | Overall Accuracy: 97.4 Standard Deviation: 2.0 |
| few-shot-3d-point-cloud-classification-on-2 | Point-LGMask | Overall Accuracy: 98.1 Standard Deviation: 1.4 |
| few-shot-3d-point-cloud-classification-on-3 | Point-LGMask | Overall Accuracy: 92.6 Standard Deviation: 4.3 |
| few-shot-3d-point-cloud-classification-on-4 | Point-LGMask | Overall Accuracy: 95.1 Standard Deviation: 3.4 |