
摘要
我们提出了一种名为GSNet(几何和场景感知网络)的新型端到端框架,该框架能够从单张城市街道图像中联合估计6自由度(6DoF)姿态并重建详细的3D汽车形状。GSNet采用了一种独特的四向特征提取与融合方案,并在一次前向传递中直接回归6DoF姿态和形状。大量实验表明,我们的多样化特征提取与融合方案可以显著提升模型性能。基于分而治之的3D形状表示策略,GSNet能够以高细节程度(1352个顶点和2700个面)重建3D车辆形状。这种密集的网格表示进一步促使我们考虑几何一致性与场景上下文,并启发了一种新的多目标损失函数来规范网络训练,从而提高了6D姿态估计的精度,并验证了同时执行这两项任务的优势。我们在最大的多任务基准测试数据集ApolloCar3D上对GSNet进行了评估,无论是在定量还是定性方面均达到了最先进的性能。项目页面可访问https://lkeab.github.io/gsnet/。
代码仓库
lkeab/gsnet
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-car-instance-understanding-on-apollocar3d | GSNet | A3DP: 20.21 |
| 3d-pose-estimation-on-apollocar3d | GSNet | A3DP: 20.21 |
| 3d-reconstruction-on-apollocar3d | GSNet | A3DP: 20.21 |
| 3d-shape-reconstruction-from-a-single-2d | GSNet | A3DP: 20.21 |
| 3d-shape-reconstruction-on-apollocar3d | GSNet | A3DP: 20.21 |
| 6d-pose-estimation-on-apollocar3d | GSNet | A3DP: 20.21 |
| 6d-pose-estimation-using-rgb-on-apollocar3d | GSNet | A3DP: 20.21 |
| autonomous-driving-on-apollocar3d | GSNet | A3DP: 20.21 |
| autonomous-vehicles-on-apollocar3d | GSNet | A3DP: 20.21 |
| keypoint-detection-on-apollocar3d | GSNet | A3DP: 20.21 |
| pose-estimation-on-apollocar3d | GSNet | A3DP: 20.21 |
| vehicle-key-point-and-orientation-estimation | GSNet | A3DP: 20.21 |
| vehicle-pose-estimation-on-apollocar3d | GSNet | A3DP: 20.21 |