
摘要
基于DETR的方法通过多层Transformer解码器迭代优化目标查询,在三维室内物体检测任务中展现出良好的性能。然而,Transformer解码器中的场景点特征保持固定,导致后续解码层的贡献有限,从而制约了性能的进一步提升。近期,状态空间模型(State Space Models, SSM)通过系统状态与输入之间的迭代交互,实现了线性复杂度下的高效上下文建模能力。受此启发,本文提出一种新型的三维物体检测范式——交互式状态空间模型(Interactive State Space Model for 3D Object Detection, DEST)。在所提出的交互式SSM中,我们设计了一种新颖的状态相关SSM参数化方法,使系统状态能够有效作为三维室内检测任务中的查询。此外,针对点云数据与SSM的特性,我们引入四项关键设计:序列化与双向扫描策略,实现了SSM内部场景点之间的双向特征交互;状态间注意力机制用于建模状态点之间的关联关系;门控前馈网络则增强了通道间的相关性。据我们所知,DEST是首个将查询建模为系统状态、场景点建模为系统输入的方法,能够在保持线性复杂度的前提下,同步更新场景点特征与查询特征。在两个具有挑战性的数据集上进行的大量实验验证了所提方法的有效性。在ScanNet V2和SUN RGB-D数据集上,DEST相较于GroupFree基线方法,AP50指标分别提升了5.3和3.2。基于VDETR基线,我们的方法在ScanNet V2和SUN RGB-D数据集上均取得了新的最先进(SOTA)性能。
代码仓库
OpenSpaceAI/DEST3D
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-object-detection-on-scannetv2 | DEST (based on V-DETR) (TTA) | mAP@0.25: 78.8 mAP@0.5: 67.9 |
| 3d-object-detection-on-scannetv2 | DEST (based on GroupFree3D) | mAP@0.25: 71.3 mAP@0.5: 58.1 |
| 3d-object-detection-on-sun-rgbd-val | DEST (based on V-DETR) (TTA) | mAP@0.25: 69.2 mAP@0.5: 52.2 |
| 3d-object-detection-on-sun-rgbd-val | DEST (based on GroupFree3D) | mAP@0.25: 65.3 mAP@0.5: 48.4 |