
摘要
神经网络的性能与其规模和训练数据量密切相关。这一点在语言生成和图像生成中均得到了体现。然而,这需要具备可扩展性的网络架构以及大规模的数据集。尽管已经为3D视觉任务开发了如变压器(transformers)等可扩展架构,但由于缺乏训练数据,3D视觉领域的GPT时刻仍遥不可及。本文中,我们介绍了ARKit LabelMaker,这是首个具有密集语义注释的大规模真实世界3D数据集。具体而言,我们在ARKitScenes数据集的基础上增加了自动大规模生成的密集语义注释。为此,我们将LabelMaker这一最近的自动注释管道进行了扩展,以满足大规模预训练的需求。这包括引入前沿的分割模型,并使其能够应对大规模处理中的各种挑战。此外,我们通过现有的3D语义分割模型,在ScanNet和ScanNet200数据集上取得了最新的最佳性能,证明了我们生成的数据集的有效性。
代码仓库
cvg/labelmaker
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-semantic-segmentation-on-scannet200 | PTv3 ArKitLabelmaker | test mIoU: 41.4 val mIoU: 40.3 |
| semantic-segmentation-on-scannet | PTv3 ARKit LabelMaker | test mIoU: 79.8 val mIoU: 79.1 |