
摘要
深度学习的成功在很大程度上依赖于具有全面标签的大规模数据集,而在三维(3D)领域获取这些数据比二维图像或自然语言更为昂贵且耗时。这促进了利用预训练模型作为跨模态知识传递教师的潜力。本文中,我们以知识蒸馏的统一方式重新审视了掩码建模,并展示了通过训练自动编码器作为跨模态教师(ACT),可以利用预训练的二维图像或自然语言基础Transformer来帮助自监督的三维表示学习。在此过程中,预训练的Transformer通过离散变分自动编码自监督方法转换为跨模态3D教师,同时通过提示调优冻结这些Transformer以实现更好的知识传承。由3D教师编码的潜在特征被用作掩码点建模的目标,在此过程中,暗知识被蒸馏到3D Transformer学生中,形成基础几何理解。我们的ACT预训练3D学习器在多个下游基准测试中表现出最先进的泛化能力,例如在ScanObjectNN上的总体准确率达到88.21%。代码已发布在https://github.com/RunpeiDong/ACT。
代码仓库
asterisci/point-gcc
pytorch
GitHub 中提及
qizekun/ReCon
pytorch
GitHub 中提及
qizekun/vpp
pytorch
GitHub 中提及
runpeidong/act
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-point-cloud-classification-on-scanobjectnn | ACT | Overall Accuracy: 89.17 |
| 3d-point-cloud-classification-on-scanobjectnn | ACT (no voting) | OBJ-BG (OA): 93.29 OBJ-ONLY (OA): 91.91 Overall Accuracy: 88.21 |
| few-shot-3d-point-cloud-classification-on-1 | ACT | Overall Accuracy: 96.8 Standard Deviation: 2.3 |
| few-shot-3d-point-cloud-classification-on-2 | ACT | Overall Accuracy: 98.0 Standard Deviation: 1.4 |
| few-shot-3d-point-cloud-classification-on-3 | ACT | Overall Accuracy: 93.3 Standard Deviation: 4.0 |
| few-shot-3d-point-cloud-classification-on-4 | ACT | Overall Accuracy: 95.6 Standard Deviation: 2.8 |