3 个月前

状态空间模型邂逅Transformer:一种面向3D目标检测的新范式

状态空间模型邂逅Transformer:一种面向3D目标检测的新范式

摘要

基于DETR的方法通过多层Transformer解码器迭代优化目标查询,在三维室内物体检测任务中展现出良好的性能。然而,Transformer解码器中的场景点特征保持固定,导致后续解码层的贡献有限,从而制约了性能的进一步提升。近期,状态空间模型(State Space Models, SSM)通过系统状态与输入之间的迭代交互,实现了线性复杂度下的高效上下文建模能力。受此启发,本文提出一种新型的三维物体检测范式——交互式状态空间模型(Interactive State Space Model for 3D Object Detection, DEST)。在所提出的交互式SSM中,我们设计了一种新颖的状态相关SSM参数化方法,使系统状态能够有效作为三维室内检测任务中的查询。此外,针对点云数据与SSM的特性,我们引入四项关键设计:序列化与双向扫描策略,实现了SSM内部场景点之间的双向特征交互;状态间注意力机制用于建模状态点之间的关联关系;门控前馈网络则增强了通道间的相关性。据我们所知,DEST是首个将查询建模为系统状态、场景点建模为系统输入的方法,能够在保持线性复杂度的前提下,同步更新场景点特征与查询特征。在两个具有挑战性的数据集上进行的大量实验验证了所提方法的有效性。在ScanNet V2和SUN RGB-D数据集上,DEST相较于GroupFree基线方法,AP50指标分别提升了5.3和3.2。基于VDETR基线,我们的方法在ScanNet V2和SUN RGB-D数据集上均取得了新的最先进(SOTA)性能。

代码仓库

基准测试

基准方法指标
3d-object-detection-on-scannetv2DEST (based on V-DETR) (TTA)
mAP@0.25: 78.8
mAP@0.5: 67.9
3d-object-detection-on-scannetv2DEST (based on GroupFree3D)
mAP@0.25: 71.3
mAP@0.5: 58.1
3d-object-detection-on-sun-rgbd-valDEST (based on V-DETR) (TTA)
mAP@0.25: 69.2
mAP@0.5: 52.2
3d-object-detection-on-sun-rgbd-valDEST (based on GroupFree3D)
mAP@0.25: 65.3
mAP@0.5: 48.4

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
状态空间模型邂逅Transformer:一种面向3D目标检测的新范式 | 论文 | HyperAI超神经