3 个月前

V-DETR：用于3D目标检测的顶点相对位置编码DETR

Yichao Shen Zigang Geng Yuhui Yuan Yutong Lin Ze Liu Chunyu Wang Han Hu Nanning Zheng Baining Guo

摘要

我们提出了一种基于DETR框架的高性能点云三维物体检测方法。先前的尝试均因无法从有限规模的训练数据中学习到准确的归纳偏置（inductive biases），导致性能未达最优。特别是，查询（queries）常关注距离目标物体较远的点，违背了目标检测中的局部性原则。为解决这一问题，我们提出一种新颖的三维顶点相对位置编码方法——3D Vertex Relative Position Encoding（3DV-RPE）。该方法在每一解码器层中，根据查询预测的三维边界框，计算每个点相对于该边界框的相对位置编码，从而为模型提供明确的引导信息，使其聚焦于靠近目标物体的点，严格遵循局部性原则。此外，基于对任务本质的深入理解，我们在多个方面系统性地优化了整体检测流程，包括数据归一化等关键步骤。在具有挑战性的ScanNetV2基准测试中，我们的方法取得了显著提升，将先前3DETR的$\rm{AP}{25}$/$\rm{AP}{50}$从65.0\%/47.0\%提升至77.8\%/66.0\%，表现优异。同时，本方法在ScanNetV2和SUN RGB-D两个数据集上均创下新的性能纪录。代码将开源，地址为：http://github.com/yichaoshen-MS/V-DETR。

代码仓库

yichaoshen-ms/v-detr

官方

pytorch

基准测试

基准	方法	指标
3d-object-detection-on-scannetv2	V-DETR	mAP@0.25: 77.8 mAP@0.5: 65.9
3d-object-detection-on-sun-rgbd-val	V-DETR	mAP@0.25: 68.0 mAP@0.5: 51.1

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程

即用型 GPU

最优价格

立即开始

Hyper Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供