3 个月前

BEVStereo:通过动态时间立体视觉提升多视角3D目标检测中的深度估计

BEVStereo:通过动态时间立体视觉提升多视角3D目标检测中的深度估计

摘要

由于深度感知固有的模糊性,当前基于摄像头的三维目标检测方法已陷入性能瓶颈。直观上,利用时序多视角立体视觉(Temporal Multi-View Stereo, MVS)技术是解决该模糊性问题的自然途径。然而,传统MVS方法在应用于三维目标检测场景时存在两个明显缺陷:其一,所有视图之间的相似性度量计算开销巨大;其二,难以应对室外场景中物体频繁移动的复杂情况。为此,我们提出一种高效的时序立体匹配方法,能够动态选择匹配候选区域的尺度,显著降低计算开销。更进一步,我们设计了一种迭代算法,用于持续更新更具价值的候选区域,从而实现对运动目标的自适应匹配。我们将所提方法应用于多视角三维检测框架,构建了名为BEVStereo的检测器。在nuScenes数据集的纯摄像头评测赛道上,BEVStereo取得了新的最先进性能,达到52.5%的mAP和61.0%的NDS。大量实验表明,与现有MVS方法相比,本方法在复杂室外场景下的适应能力显著更优。相关代码已开源,地址为:https://github.com/Megvii-BaseDetection/BEVStereo。

代码仓库

megvii-basedetection/bevstereo
官方
pytorch
GitHub 中提及
megvii-basedetection/bevdepth
pytorch
GitHub 中提及
ZRandomize/MatrixVT
pytorch
GitHub 中提及

基准测试

基准方法指标
3d-object-detection-on-nuscenes-camera-onlyBEVStereo
Future Frame: false
NDS: 61.0

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
BEVStereo:通过动态时间立体视觉提升多视角3D目标检测中的深度估计 | 论文 | HyperAI超神经