3 个月前

语言引导的野外室内3D语义分割

语言引导的野外室内3D语义分割

摘要

近年来,基于深度神经网络的3D语义分割取得了显著进展,在现有数据集上的性能迅速提升。然而,当前的3D语义分割基准测试所包含的类别数量仍然有限——例如,ScanNet和SemanticKITTI数据集的类别均不足30个,难以充分反映真实环境的多样性(例如,语义图像理解通常涵盖数百至数千个类别)。为此,我们提出在ScanNet数据集基础上构建一个扩展的新基准,涵盖200个类别,类别数量较以往研究提升了近一个数量级。这一大规模类别设置也带来了显著的自然类别不平衡问题,对现有3D语义分割方法构成了严峻挑战。为在该背景下学习更具鲁棒性的3D特征,我们提出一种基于语言驱动的预训练方法,旨在促使那些训练样本稀缺的类别所对应的3D特征,能够靠近其预训练的文本嵌入表示。大量实验表明,我们的方法在所提出的基准上显著优于当前最先进的3D预训练方法,整体性能提升达9%(相对mIoU),在标注数据极为有限的场景下(仅使用5%标注数据),仍可实现25%的相对mIoU提升,充分验证了方法的有效性与泛化能力。

代码仓库

RozDavid/LanguageGroundedSemseg
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
3d-semantic-segmentation-on-scannet200LGround
test mIoU: 27.2
val mIoU: 28.8

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
语言引导的野外室内3D语义分割 | 论文 | HyperAI超神经