
摘要
基于大规模图像数据集训练的视觉基础模型(Vision Foundation Models, VFMs)能够提取高质量的特征,显著推动了二维视觉识别的发展。然而,尽管二维图像与三维点云数据集通常同时可用,VFMs在三维视觉领域的潜力仍远未被充分挖掘。尽管已有大量研究致力于二维与三维信息的融合,但当前最先进的三维视觉方法仍主要聚焦于三维数据本身,对将视觉基础模型融入三维模型的研究仍显不足。针对这一现状,本文提出DITR——一种简洁而高效的方法:该方法首先从二维基础模型中提取特征,将其投影至三维空间,并最终注入三维点云分割模型中。实验结果表明,DITR在室内与室外三维语义分割基准测试中均取得了当前最优性能。为进一步提升模型在推理阶段无可用图像时的适用性,我们进一步提出一种蒸馏策略:将二维基础模型的知识蒸馏至三维主干网络中,作为预训练任务。通过利用从二维VFMs中蒸馏得到的知识初始化三维主干网络,我们为下游三维分割任务构建了一个强大的模型基础,显著提升了在多个数据集上的整体性能。
代码仓库
VisualComputingInstitute/DITR
官方
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-semantic-segmentation-on-scannet200 | DITR | test mIoU: 44.9 val mIoU: 41.2 |
| 3d-semantic-segmentation-on-semantickitti | DITR | test mIoU: 74.4% val mIoU: 69.0% |
| 3d-semantic-segmentation-on-waymo-open | DITR | mIoU: 73.3 |
| lidar-semantic-segmentation-on-nuscenes | DITR | test mIoU: 0.851 val mIoU: 0.842 |
| semantic-segmentation-on-s3dis-area5 | DITR | mIoU: 74.1 |
| semantic-segmentation-on-scannet | DITR | test mIoU: 79.7 val mIoU: 80.5 |