
摘要
尽管近期点云分析取得了令人瞩目的进展,但单一模态的表征学习范式逐渐面临瓶颈。本文致力于通过充分挖掘图像所蕴含的丰富外观信息(如纹理、颜色和明暗等),构建更具判别性的三维点云表征。具体而言,本文提出一种简单而高效的点云跨模态训练策略——PointCMT(Point Cloud Cross-Modality Training),该方法利用视图图像(即三维物体的渲染或投影二维图像)来增强点云分析性能。为有效从视图图像中获取辅助知识,我们设计了一种教师-学生框架,并将跨模态学习建模为知识蒸馏问题。PointCMT通过新颖的特征与分类器增强准则,有效消除了不同模态间的分布差异,并避免了潜在的负迁移问题。值得注意的是,PointCMT在不修改网络架构的前提下,显著提升了仅依赖点云的表征能力。大量实验验证了其优越性:在多个数据集上,结合性能优异的骨干网络(如PointNet++和PointMLP),PointCMT在ModelNet40和ScanObjectNN两个基准测试中分别取得了94.4%和86.7%的准确率,达到当前最优水平。代码将开源,地址为:https://github.com/ZhanHeshen/PointCMT。
代码仓库
yanx27/2dpass
pytorch
GitHub 中提及
zhanheshen/pointcmt
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-point-cloud-classification-on-modelnet40 | PointNet2+PointCMT | Mean Accuracy: 91.2 Number of params: 1.62M Overall Accuracy: 94.4 |
| 3d-point-cloud-classification-on-scanobjectnn | PointCMT | Mean Accuracy: 84.8 Number of params: 12.6M Overall Accuracy: 86.7 |