6 个月前

摘要

在自动驾驶等众多应用场景中，可靠且精确的三维（3D）目标跟踪框架对于预测周围物体的未来位置以及规划观测主体的行动至关重要。本文提出了一种新颖的跟踪框架，能够从移动平台采集的连续2D图像序列中，有效关联随时间变化的运动目标，并估计其完整的3D边界框信息。该框架通过引入准密集（quasi-dense）外观相似性学习机制，仅依赖视觉外观特征即可在不同姿态与视角下准确识别目标。在完成初步的2D目标关联后，进一步结合3D边界框的深度排序启发式规则，实现鲁棒的实例级关联；同时利用基于运动模型的3D轨迹预测方法，完成被遮挡车辆的重新识别。最终，采用基于长短期记忆网络（LSTM）的目标速度学习模块，融合长期轨迹信息，实现更精确的运动外推。在我们自建的仿真数据集以及多个真实世界基准数据集（包括KITTI、nuScenes和Waymo）上的实验结果表明，所提出的跟踪框架在城市驾驶场景下展现出优异的物体关联与跟踪性能。在Waymo Open数据集上，我们首次建立了仅使用摄像头的3D跟踪与3D检测挑战赛的基线系统。在nuScenes 3D跟踪基准测试中，我们的准密集3D跟踪流水线取得了显著提升，其跟踪精度接近现有所有公开方法中仅基于视觉方案的最佳结果的五倍。相关代码、数据集及训练好的模型已开源，可通过 https://github.com/SysCV/qd-3dt 获取。

源 PDF