
摘要
本文深入研究了在点云领域中通过自监督学习所获得的Transformer模型的特性。具体而言,我们评估了掩码自编码(Masked Autoencoding)作为预训练策略的有效性,并探讨了动量对比(Momentum Contrast)作为替代方案的潜力。在研究中,我们考察了数据量对所学特征的影响,并发现Transformer在不同领域间表现出相似的行为模式。通过全面的可视化分析,我们观察到Transformer能够关注具有语义意义的区域,表明预训练有助于模型更好地理解点云数据的底层几何结构。此外,我们还分析了微调过程对学习表征的影响,并据此提出了一种解冻策略,该策略在不改变模型结构或训练流程其他任何部分的前提下,持续优于基线方法,并在分类任务中取得了当前Transformer模型中的最先进性能。
代码仓库
vvrpanda/exppoint-mae
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-point-cloud-classification-on-modelnet40 | ExpPoint-MAE | Overall Accuracy: 94.2 |
| 3d-point-cloud-classification-on-scanobjectnn | ExpPoint-MAE | OBJ-BG (OA): 90.88 OBJ-ONLY (OA): 90.02 |