4 个月前

MonoDTR:基于深度感知变换器的单目3D目标检测

MonoDTR:基于深度感知变换器的单目3D目标检测

摘要

单目3D物体检测是自动驾驶领域中一个重要的但具有挑战性的任务。一些现有的方法利用现成的深度估计器提供的深度信息来辅助3D检测,但这些方法因额外的计算负担以及由不准确的深度先验导致的性能有限而受到限制。为了解决这一问题,我们提出了一种新颖的端到端深度感知变压器网络——MonoDTR。该网络主要由两个组件构成:(1)深度感知特征增强(DFE)模块,该模块通过辅助监督隐式学习深度感知特征,而无需额外计算;(2)深度感知变压器(DTR)模块,该模块全局整合上下文和深度感知特征。此外,不同于传统的像素级位置编码,我们引入了一种新的深度位置编码(DPE),以将深度位置提示注入变压器中。我们提出的深度感知模块可以轻松集成到现有的仅基于图像的单目3D物体检测器中,以提升其性能。在KITTI数据集上的大量实验表明,我们的方法优于以往基于单目的最先进方法,并实现了实时检测。代码可在 https://github.com/kuanchihhuang/MonoDTR 获取。

代码仓库

kuanchihhuang/monodtr
官方
pytorch
GitHub 中提及

基准测试

基准方法指标
3d-object-detection-from-monocular-images-on-7MonoDTR
AP25: 39.76
AP50: 3.02

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
MonoDTR:基于深度感知变换器的单目3D目标检测 | 论文 | HyperAI超神经