3 个月前

房间里的DINO:利用2D基础模型进行3D分割

房间里的DINO:利用2D基础模型进行3D分割

摘要

基于大规模图像数据集训练的视觉基础模型(Vision Foundation Models, VFMs)能够提取高质量的特征,显著推动了二维视觉识别的发展。然而,尽管二维图像与三维点云数据集通常同时可用,VFMs在三维视觉领域的潜力仍远未被充分挖掘。尽管已有大量研究致力于二维与三维信息的融合,但当前最先进的三维视觉方法仍主要聚焦于三维数据本身,对将视觉基础模型融入三维模型的研究仍显不足。针对这一现状,本文提出DITR——一种简洁而高效的方法:该方法首先从二维基础模型中提取特征,将其投影至三维空间,并最终注入三维点云分割模型中。实验结果表明,DITR在室内与室外三维语义分割基准测试中均取得了当前最优性能。为进一步提升模型在推理阶段无可用图像时的适用性,我们进一步提出一种蒸馏策略:将二维基础模型的知识蒸馏至三维主干网络中,作为预训练任务。通过利用从二维VFMs中蒸馏得到的知识初始化三维主干网络,我们为下游三维分割任务构建了一个强大的模型基础,显著提升了在多个数据集上的整体性能。

代码仓库

VisualComputingInstitute/DITR
官方
GitHub 中提及

基准测试

基准方法指标
3d-semantic-segmentation-on-scannet200DITR
test mIoU: 44.9
val mIoU: 41.2
3d-semantic-segmentation-on-semantickittiDITR
test mIoU: 74.4%
val mIoU: 69.0%
3d-semantic-segmentation-on-waymo-openDITR
mIoU: 73.3
lidar-semantic-segmentation-on-nuscenesDITR
test mIoU: 0.851
val mIoU: 0.842
semantic-segmentation-on-s3dis-area5DITR
mIoU: 74.1
semantic-segmentation-on-scannetDITR
test mIoU: 79.7
val mIoU: 80.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
房间里的DINO:利用2D基础模型进行3D分割 | 论文 | HyperAI超神经