4 个月前

通过图像到点的掩码自动编码器从2D预训练模型学习3D表示

通过图像到点的掩码自动编码器从2D预训练模型学习3D表示

摘要

预训练使用大量图像数据已成为获得稳健2D表示的默认方法。相比之下,由于数据获取和注释成本高昂,大规模3D数据集的缺乏严重阻碍了高质量3D特征的学习。在本文中,我们提出了一种通过图像到点云掩码自编码器(Image-to-Point Masked Autoencoders, I2P-MAE)从2D预训练模型中获得优越3D表示的方法。通过自监督预训练,我们利用已学习良好的2D知识来指导3D掩码自编码过程,该过程使用编码器-解码器架构重建被掩码的点云标记。具体而言,我们首先利用现成的2D模型提取输入点云的多视角视觉特征,然后在其基础上进行两种类型的图像到点云学习方案。一方面,我们引入了一种由2D引导的掩码策略,保持语义上重要的点云标记对编码器可见。与随机掩码相比,网络可以更好地关注显著的3D结构,并从关键的空间线索中恢复被掩码的标记。另一方面,我们在解码器之后强制这些可见标记重建对应的多视角2D特征。这使得网络能够有效地继承从丰富图像数据中学到的高层次2D语义,用于区分性的3D建模。借助我们的图像到点云预训练方法,冻结后的I2P-MAE无需任何微调即可在ModelNet40上实现93.4%的线性SVM分类准确率,与现有方法完全训练的结果具有竞争力。进一步在ScanObjectNN最困难的数据分割上进行微调后,I2P-MAE达到了最先进的90.11%准确率,比第二好的方法高出3.68%,展示了其卓越的迁移能力。代码将在https://github.com/ZrrSkywalker/I2P-MAE提供。

代码仓库

zrrskywalker/point-m2ae
pytorch
GitHub 中提及
zrrskywalker/i2p-mae
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
3d-point-cloud-classification-on-scanobjectnnI2P-MAE (no voting)
OBJ-BG (OA): 94.15
OBJ-ONLY (OA): 91.57
Overall Accuracy: 90.11
3d-point-cloud-linear-classification-onI2P-MAE
Overall Accuracy: 93.4
few-shot-3d-point-cloud-classification-on-1I2P-MAE
Overall Accuracy: 97.0
Standard Deviation: 1.8
few-shot-3d-point-cloud-classification-on-2I2P-MAE
Overall Accuracy: 98.3
Standard Deviation: 1.3
few-shot-3d-point-cloud-classification-on-3I2P-MAE
Overall Accuracy: 92.6
Standard Deviation: 5.0
few-shot-3d-point-cloud-classification-on-4I2P-MAE
Overall Accuracy: 95.5
Standard Deviation: 3.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
通过图像到点的掩码自动编码器从2D预训练模型学习3D表示 | 论文 | HyperAI超神经