JainAyush ; KataraPushkal ; GkanatsiosNikolaos ; HarleyAdam W. ; SarchGabriel ; AggarwalKriti ; ChaudharyVishrav ; FragkiadakiKaterina

摘要
当前最先进的模型在如ScanNet等现代3D分割基准上,会消耗并标记数据集提供的3D点云,这些点云通常通过多视角RGB-D图像的后处理获得。这些模型通常在特定领域内进行训练,放弃大规模2D预训练,并且在性能上优于那些对姿态化的RGB-D多视角图像进行特征提取的方法。姿态化图像与后处理3D点云之间的性能差距,引发了人们认为2D和3D感知需要不同的模型架构的观点。在本文中,我们挑战这一观点,并提出了一种名为ODIN(Omni-Dimensional INstance Segmentation)的模型,该模型可以同时分割和标记2D RGB图像和3D点云,采用了一种交替进行2D视图内信息融合和3D跨视图信息融合的变压器架构。我们的模型通过参与令牌的位置编码来区分2D和3D特征操作,其中位置编码捕捉了2D补丁令牌的像素坐标和3D特征令牌的3D坐标。ODIN在ScanNet200、Matterport3D和AI2THOR 3D实例分割基准上达到了最先进水平,在ScanNet、S3DIS和COCO基准上也表现出竞争力。当使用感知到的3D点云而不是从3D网格采样的点云时,其性能远远超过了所有先前的工作。当作为可指令实体代理架构中的3D感知引擎使用时,它在TEACh对话驱动动作基准上树立了新的最先进水平。我们的代码和检查点可以在项目网站(https://odin-seg.github.io)上找到。
代码仓库
ayushjain1144/odin
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-instance-segmentation-on-scannet200 | ODIN | mAP: 31.5 mAP@25: 53.1 mAP@50: 45.3 |
| 3d-instance-segmentation-on-scannetv2 | ODIN | mAP: 50.0 mAP @ 50: 71.0 mAP@25: 83.6 |
| 3d-semantic-segmentation-on-scannet200 | ODIN | test mIoU: 36.8 val mIoU: 40.5 |
| semantic-segmentation-on-scannet | ODIN | test mIoU: 74.4 val mIoU: 77.8 |