3 个月前

Point-LGMask:基于多比例掩码的点云预训练中的局部与全局上下文嵌入

Point-LGMask:基于多比例掩码的点云预训练中的局部与全局上下文嵌入

摘要

自监督学习在自然语言处理与二维视觉领域已取得显著成功,其中掩码建模(masked modeling)作为一种广受欢迎的预训练范式被广泛应用。然而,将掩码机制扩展至结合局部与全局特征的三维点云理解任务中,仍面临全新挑战。在本工作中,我们提出 Point-LGMask,一种新颖的方法,通过多比例掩码策略同时嵌入点云的局部与全局上下文信息,该方法在自监督点云特征学习中表现优异,但却未被现有预训练方法所重视。具体而言,为避免模型过度适应固定掩码比例,我们首次提出多比例掩码机制,通过设置不同难度的重建任务,促使编码器充分探索具有代表性的特征。为进一步促进局部与全局特征的联合建模,我们设计了一种复合损失函数,包含两个组成部分:(i)全局表示对比损失,用于促使被掩码点云的聚类分配与完整输入保持一致;(ii)局部点云预测损失,以提升对被掩码点的精准重建能力。基于 Point-LGMask,我们验证了所学特征在多种下游任务中的良好迁移性能,涵盖少样本分类、形状分类、物体部件分割,以及真实场景下的三维物体检测与三维语义分割任务。特别地,在真实采集的 ScanObjectNN 数据集上进行少样本分类任务时,我们的模型相较当前第二佳方法显著提升超过 4%,大幅推进了现有预训练方法的性能上限。此外,在三维物体检测任务中,相较于次优方法,Point-LGMask 分别实现了 0.4% AP25 和 0.8% AP50 的提升;在三维语义分割任务中,mAcc 与 mIoU 分别提升 0.4% 和 0.5%。相关代码已开源,地址为:https://github.com/TangYuan96/Point-LGMask

基准测试

基准方法指标
3d-point-cloud-classification-on-scanobjectnnPoint-LGMask
OBJ-BG (OA): 89.8
OBJ-ONLY (OA): 89.3
Overall Accuracy: 85.3
few-shot-3d-point-cloud-classification-on-1Point-LGMask
Overall Accuracy: 97.4
Standard Deviation: 2.0
few-shot-3d-point-cloud-classification-on-2Point-LGMask
Overall Accuracy: 98.1
Standard Deviation: 1.4
few-shot-3d-point-cloud-classification-on-3Point-LGMask
Overall Accuracy: 92.6
Standard Deviation: 4.3
few-shot-3d-point-cloud-classification-on-4Point-LGMask
Overall Accuracy: 95.1
Standard Deviation: 3.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
Point-LGMask:基于多比例掩码的点云预训练中的局部与全局上下文嵌入 | 论文 | HyperAI超神经