
摘要
预训练使用大量图像数据已成为获得稳健2D表示的默认方法。相比之下,由于数据获取和注释成本高昂,大规模3D数据集的缺乏严重阻碍了高质量3D特征的学习。在本文中,我们提出了一种通过图像到点云掩码自编码器(Image-to-Point Masked Autoencoders, I2P-MAE)从2D预训练模型中获得优越3D表示的方法。通过自监督预训练,我们利用已学习良好的2D知识来指导3D掩码自编码过程,该过程使用编码器-解码器架构重建被掩码的点云标记。具体而言,我们首先利用现成的2D模型提取输入点云的多视角视觉特征,然后在其基础上进行两种类型的图像到点云学习方案。一方面,我们引入了一种由2D引导的掩码策略,保持语义上重要的点云标记对编码器可见。与随机掩码相比,网络可以更好地关注显著的3D结构,并从关键的空间线索中恢复被掩码的标记。另一方面,我们在解码器之后强制这些可见标记重建对应的多视角2D特征。这使得网络能够有效地继承从丰富图像数据中学到的高层次2D语义,用于区分性的3D建模。借助我们的图像到点云预训练方法,冻结后的I2P-MAE无需任何微调即可在ModelNet40上实现93.4%的线性SVM分类准确率,与现有方法完全训练的结果具有竞争力。进一步在ScanObjectNN最困难的数据分割上进行微调后,I2P-MAE达到了最先进的90.11%准确率,比第二好的方法高出3.68%,展示了其卓越的迁移能力。代码将在https://github.com/ZrrSkywalker/I2P-MAE提供。
代码仓库
zrrskywalker/point-m2ae
pytorch
GitHub 中提及
zrrskywalker/i2p-mae
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-point-cloud-classification-on-scanobjectnn | I2P-MAE (no voting) | OBJ-BG (OA): 94.15 OBJ-ONLY (OA): 91.57 Overall Accuracy: 90.11 |
| 3d-point-cloud-linear-classification-on | I2P-MAE | Overall Accuracy: 93.4 |
| few-shot-3d-point-cloud-classification-on-1 | I2P-MAE | Overall Accuracy: 97.0 Standard Deviation: 1.8 |
| few-shot-3d-point-cloud-classification-on-2 | I2P-MAE | Overall Accuracy: 98.3 Standard Deviation: 1.3 |
| few-shot-3d-point-cloud-classification-on-3 | I2P-MAE | Overall Accuracy: 92.6 Standard Deviation: 5.0 |
| few-shot-3d-point-cloud-classification-on-4 | I2P-MAE | Overall Accuracy: 95.5 Standard Deviation: 3.0 |