6 个月前

卷积神经网络

计算机视觉

Zhenzhong Chen Bin Xu

摘要

本文提出了一种基于端到端深度学习的框架，用于从单张单目图像中进行三维物体检测。该框架引入了一种深度卷积神经网络，实现二维与三维物体检测的联合处理。首先，通过区域建议网络生成二维区域建议；随后，在这些建议区域内学习共享特征，以预测物体类别概率、二维边界框、方向、尺寸以及三维空间位置。我们设计了一个独立模块用于估计视差，并从计算得到的点云中提取特征。由此，原始图像与点云的特征将在多个层级上进行融合，从而实现高精度的三维定位。此外，所估计的视差还被用于前视图特征编码，以增强输入图像，该过程可视为一种输入级特征融合。所提出的算法仅需单张RGB图像作为输入，即可端到端地直接输出二维与三维物体检测结果。在具有挑战性的KITTI基准测试上的实验结果表明，该方法在仅使用单目图像的情况下，显著优于现有的最先进方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

6 个月前

卷积神经网络

计算机视觉

Zhenzhong Chen Bin Xu

摘要

本文提出了一种基于端到端深度学习的框架，用于从单张单目图像中进行三维物体检测。该框架引入了一种深度卷积神经网络，实现二维与三维物体检测的联合处理。首先，通过区域建议网络生成二维区域建议；随后，在这些建议区域内学习共享特征，以预测物体类别概率、二维边界框、方向、尺寸以及三维空间位置。我们设计了一个独立模块用于估计视差，并从计算得到的点云中提取特征。由此，原始图像与点云的特征将在多个层级上进行融合，从而实现高精度的三维定位。此外，所估计的视差还被用于前视图特征编码，以增强输入图像，该过程可视为一种输入级特征融合。所提出的算法仅需单张RGB图像作为输入，即可端到端地直接输出二维与三维物体检测结果。在具有挑战性的KITTI基准测试上的实验结果表明，该方法在仅使用单目图像的情况下，显著优于现有的最先进方法。

用 AI 构建 AI

从创意到上线——通过免费 AI 协同编码、开箱即用的环境和最优惠的 GPU 价格,加速您的 AI 开发。

AI 协同编码

开箱即用的 GPU

最优定价

开始使用查看定价

HyperAI Newsletters

订阅我们的最新资讯

我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新

邮件发送服务由 MailChimp 提供

基于多层级融合的单目图像3D目标检测 | 论文 | HyperAI超神经