
摘要
3D实例分割旨在预测场景中的物体实例,并将其表示为带有相应语义标签的二值前景掩码。然而,物体实例在形状和类别上具有高度多样性,而点云通常具有稀疏性、无序性和不规则性,这导致了查询采样的困境。此外,噪声背景查询会干扰场景的准确感知,影响实例分割的精度。为解决上述问题,我们提出了一种名为QueryFormer的查询优化Transformer模型。其核心思想在于设计一个查询初始化模块,以实现高覆盖度、低重复率的查询分布初始化。同时,我们构建了一个关联的Transformer解码器,能够抑制噪声背景查询的干扰,引导前景查询聚焦于实例的判别性区域,从而获得最终的分割结果。在ScanNetV2和S3DIS数据集上的大量实验表明,QueryFormer在性能上超越了当前最先进的3D实例分割方法。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-instance-segmentation-on-scannetv2 | QueryFormer | mAP: 58.3 mAP @ 50: 78.7 mAP@25: 87.4 |
| 3d-object-detection-on-scannetv2 | QueryFormer | mAP@0.25: 73.4 mAP@0.5: 61.7 |