8 个月前

机器视觉 3D

计算机视觉

Huang Kuan-Chih ; Wu Tsung-Han ; Su Hung-Ting ; Hsu Winston H.

摘要

单目3D物体检测是自动驾驶领域中一个重要的但具有挑战性的任务。一些现有的方法利用现成的深度估计器提供的深度信息来辅助3D检测，但这些方法因额外的计算负担以及由不准确的深度先验导致的性能有限而受到限制。为了解决这一问题，我们提出了一种新颖的端到端深度感知 Transformer 网络——MonoDTR。该网络主要由两个组件构成：（1）深度感知特征增强（DFE）模块，该模块通过辅助监督隐式学习深度感知特征，而无需额外计算；（2）深度感知 Transformer （DTR）模块，该模块全局整合上下文和深度感知特征。此外，不同于传统的像素级位置编码，我们引入了一种新的深度位置编码（DPE），以将深度位置提示注入 Transformer 中。我们提出的深度感知模块可以轻松集成到现有的仅基于图像的单目3D物体检测器中，以提升其性能。在KITTI数据集上的大量实验表明，我们的方法优于以往基于单目的最先进方法，并实现了实时检测。代码可在 https://github.com/kuanchihhuang/MonoDTR 获取。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

8 个月前

机器视觉 3D

计算机视觉

Huang Kuan-Chih ; Wu Tsung-Han ; Su Hung-Ting ; Hsu Winston H.

摘要

单目3D物体检测是自动驾驶领域中一个重要的但具有挑战性的任务。一些现有的方法利用现成的深度估计器提供的深度信息来辅助3D检测，但这些方法因额外的计算负担以及由不准确的深度先验导致的性能有限而受到限制。为了解决这一问题，我们提出了一种新颖的端到端深度感知 Transformer 网络——MonoDTR。该网络主要由两个组件构成：（1）深度感知特征增强（DFE）模块，该模块通过辅助监督隐式学习深度感知特征，而无需额外计算；（2）深度感知 Transformer （DTR）模块，该模块全局整合上下文和深度感知特征。此外，不同于传统的像素级位置编码，我们引入了一种新的深度位置编码（DPE），以将深度位置提示注入 Transformer 中。我们提出的深度感知模块可以轻松集成到现有的仅基于图像的单目3D物体检测器中，以提升其性能。在KITTI数据集上的大量实验表明，我们的方法优于以往基于单目的最先进方法，并实现了实时检测。代码可在 https://github.com/kuanchihhuang/MonoDTR 获取。

源 PDF 查看代码

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供