4 个月前

通过图像到点的掩码自动编码器从2D预训练模型学习3D表示

Zhang Renrui ; Wang Liuhui ; Qiao Yu ; Gao Peng ; Li Hongsheng

摘要

预训练使用大量图像数据已成为获得稳健2D表示的默认方法。相比之下，由于数据获取和注释成本高昂，大规模3D数据集的缺乏严重阻碍了高质量3D特征的学习。在本文中，我们提出了一种通过图像到点云掩码自编码器（Image-to-Point Masked Autoencoders, I2P-MAE）从2D预训练模型中获得优越3D表示的方法。通过自监督预训练，我们利用已学习良好的2D知识来指导3D掩码自编码过程，该过程使用编码器-解码器架构重建被掩码的点云标记。具体而言，我们首先利用现成的2D模型提取输入点云的多视角视觉特征，然后在其基础上进行两种类型的图像到点云学习方案。一方面，我们引入了一种由2D引导的掩码策略，保持语义上重要的点云标记对编码器可见。与随机掩码相比，网络可以更好地关注显著的3D结构，并从关键的空间线索中恢复被掩码的标记。另一方面，我们在解码器之后强制这些可见标记重建对应的多视角2D特征。这使得网络能够有效地继承从丰富图像数据中学到的高层次2D语义，用于区分性的3D建模。借助我们的图像到点云预训练方法，冻结后的I2P-MAE无需任何微调即可在ModelNet40上实现93.4%的线性SVM分类准确率，与现有方法完全训练的结果具有竞争力。进一步在ScanObjectNN最困难的数据分割上进行微调后，I2P-MAE达到了最先进的90.11%准确率，比第二好的方法高出3.68%，展示了其卓越的迁移能力。代码将在https://github.com/ZrrSkywalker/I2P-MAE提供。

代码仓库

zrrskywalker/point-m2ae

pytorch

GitHub 中提及

zrrskywalker/i2p-mae

官方

pytorch

GitHub 中提及

基准测试

基准	方法	指标
3d-point-cloud-classification-on-scanobjectnn	I2P-MAE (no voting)	OBJ-BG (OA): 94.15 OBJ-ONLY (OA): 91.57 Overall Accuracy: 90.11
3d-point-cloud-linear-classification-on	I2P-MAE	Overall Accuracy: 93.4
few-shot-3d-point-cloud-classification-on-1	I2P-MAE	Overall Accuracy: 97.0 Standard Deviation: 1.8
few-shot-3d-point-cloud-classification-on-2	I2P-MAE	Overall Accuracy: 98.3 Standard Deviation: 1.3
few-shot-3d-point-cloud-classification-on-3	I2P-MAE	Overall Accuracy: 92.6 Standard Deviation: 5.0
few-shot-3d-point-cloud-classification-on-4	I2P-MAE	Overall Accuracy: 95.5 Standard Deviation: 3.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供