3 个月前

奏鸣曲:可靠点表示的自监督学习

奏鸣曲:可靠点表示的自监督学习

摘要

在本文中,我们质疑:在数据有限且计算资源极少的情况下,是否存在一种可靠的自监督点云模型,能够通过简单的线性探测(linear probing)适用于多种3D任务。我们发现,现有3D自监督学习方法在通过线性探测评估表征质量时表现不足。我们推测,这一问题源于我们所称的“几何捷径”(geometric shortcut)现象——该现象导致模型表征退化为低层次的空间特征。这一挑战具有三维数据的独特性,其根源在于点云数据的稀疏特性。为应对这一问题,我们提出了两种关键策略:一是遮蔽空间信息,二是增强模型对输入特征的依赖性,最终通过自蒸馏(self-distillation)构建出由14万点云组成的“交响曲”(Sonata)模型。Sonata结构简洁直观,但其学习到的表征却具备强大且可靠的性能:零样本可视化结果展现出良好的语义分组能力,并能通过最近邻关系实现出色的几何推理。Sonata在参数效率和数据效率方面表现卓越,在ScanNet数据集上,线性探测准确率从21.8%提升至72.5%,实现了三倍增长;仅使用1%的数据量,其性能也接近此前方法的两倍。在全量微调后,Sonata在3D室内与室外感知任务中均达到当前最优水平(SOTA)。

代码仓库

Pointcept/Pointcept
官方
pytorch
GitHub 中提及
facebookresearch/sonata
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
3d-semantic-segmentation-on-scannet200Sonata + PTv3
val mIoU: 36.8
semantic-segmentation-on-s3disSonata + PTv3
Mean IoU: 82.3
Number of params: 128M
mAcc: 89.9
oAcc: 93.3
semantic-segmentation-on-s3dis-area5Sonata + PTv3
mAcc: 81.6
mIoU: 76.0
oAcc: 93.0
semantic-segmentation-on-scannetSonata + PTv3
val mIoU: 79.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
奏鸣曲:可靠点表示的自监督学习 | 论文 | HyperAI超神经