
摘要
以视觉为中心的联合感知与预测(PnP)已成为自动驾驶研究中的新兴趋势。该方法从原始RGB图像中预测周围环境中交通参与者未来的状态。然而,由于不可避免的几何畸变,多视角和多时间戳获取的特征同步仍然是一个关键挑战,进一步利用这些时空特征也颇具难度。为了解决这一问题,我们提出了一种用于以视觉为中心的PnP的时间鸟瞰图金字塔变换器(TBP-Former),其中包括两项创新设计。首先,提出了一种姿态同步的鸟瞰图编码器,可以将任何时间点、任何相机姿态下的原始图像输入映射到共享且同步的鸟瞰图空间,从而实现更好的时空同步。其次,引入了一种时空金字塔变换器,全面提取多尺度鸟瞰图特征,并在时空先验的支持下预测未来的鸟瞰图状态。在nuScenes数据集上的大量实验表明,我们提出的框架总体上优于所有现有的基于视觉的预测方法。
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| bird-s-eye-view-semantic-segmentation-on | TBP-Former | IoU ped - 224x480 - Vis filter. - 100x100 at 0.5: 18.6 |
| bird-s-eye-view-semantic-segmentation-on | TBP-Former (static) | IoU ped - 224x480 - Vis filter. - 100x100 at 0.5: 17.2 |