4 个月前

ARKit LabelMaker:室内3D场景理解的新尺度

ARKit LabelMaker:室内3D场景理解的新尺度

摘要

神经网络的性能与其规模和训练数据量密切相关。这一点在语言生成和图像生成中均得到了体现。然而,这需要具备可扩展性的网络架构以及大规模的数据集。尽管已经为3D视觉任务开发了如变压器(transformers)等可扩展架构,但由于缺乏训练数据,3D视觉领域的GPT时刻仍遥不可及。本文中,我们介绍了ARKit LabelMaker,这是首个具有密集语义注释的大规模真实世界3D数据集。具体而言,我们在ARKitScenes数据集的基础上增加了自动大规模生成的密集语义注释。为此,我们将LabelMaker这一最近的自动注释管道进行了扩展,以满足大规模预训练的需求。这包括引入前沿的分割模型,并使其能够应对大规模处理中的各种挑战。此外,我们通过现有的3D语义分割模型,在ScanNet和ScanNet200数据集上取得了最新的最佳性能,证明了我们生成的数据集的有效性。

代码仓库

cvg/labelmaker
官方
pytorch

基准测试

基准方法指标
3d-semantic-segmentation-on-scannet200PTv3 ArKitLabelmaker
test mIoU: 41.4
val mIoU: 40.3
semantic-segmentation-on-scannetPTv3 ARKit LabelMaker
test mIoU: 79.8
val mIoU: 79.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
ARKit LabelMaker:室内3D场景理解的新尺度 | 论文 | HyperAI超神经