4 个月前

自编码器作为跨模态教师:预训练的2D图像变换器能否助力3D表征学习?

自编码器作为跨模态教师:预训练的2D图像变换器能否助力3D表征学习?

摘要

深度学习的成功在很大程度上依赖于具有全面标签的大规模数据集,而在三维(3D)领域获取这些数据比二维图像或自然语言更为昂贵且耗时。这促进了利用预训练模型作为跨模态知识传递教师的潜力。本文中,我们以知识蒸馏的统一方式重新审视了掩码建模,并展示了通过训练自动编码器作为跨模态教师(ACT),可以利用预训练的二维图像或自然语言基础Transformer来帮助自监督的三维表示学习。在此过程中,预训练的Transformer通过离散变分自动编码自监督方法转换为跨模态3D教师,同时通过提示调优冻结这些Transformer以实现更好的知识传承。由3D教师编码的潜在特征被用作掩码点建模的目标,在此过程中,暗知识被蒸馏到3D Transformer学生中,形成基础几何理解。我们的ACT预训练3D学习器在多个下游基准测试中表现出最先进的泛化能力,例如在ScanObjectNN上的总体准确率达到88.21%。代码已发布在https://github.com/RunpeiDong/ACT。

代码仓库

asterisci/point-gcc
pytorch
GitHub 中提及
qizekun/ReCon
pytorch
GitHub 中提及
qizekun/vpp
pytorch
GitHub 中提及
runpeidong/act
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
3d-point-cloud-classification-on-scanobjectnnACT
Overall Accuracy: 89.17
3d-point-cloud-classification-on-scanobjectnnACT (no voting)
OBJ-BG (OA): 93.29
OBJ-ONLY (OA): 91.91
Overall Accuracy: 88.21
few-shot-3d-point-cloud-classification-on-1ACT
Overall Accuracy: 96.8
Standard Deviation: 2.3
few-shot-3d-point-cloud-classification-on-2ACT
Overall Accuracy: 98.0
Standard Deviation: 1.4
few-shot-3d-point-cloud-classification-on-3ACT
Overall Accuracy: 93.3
Standard Deviation: 4.0
few-shot-3d-point-cloud-classification-on-4ACT
Overall Accuracy: 95.6
Standard Deviation: 2.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
自编码器作为跨模态教师:预训练的2D图像变换器能否助力3D表征学习? | 论文 | HyperAI超神经