
摘要
自动驾驶汽车需要高效且准确地理解三维场景,以确保安全驾驶。由于硬件资源有限,现有的三维感知模型在低分辨率体素化和激进的下采样过程中难以很好地识别小目标(如行人、骑自行车者)。为此,我们提出了一种轻量级的三维模块——稀疏点-体素卷积(Sparse Point-Voxel Convolution, SPVConv),该模块在普通的稀疏卷积基础上增加了高分辨率的基于点的分支。这一基于点的分支几乎不会增加额外开销,却能保留大型室外场景中的细微细节。为了探索高效的三维模型谱系,我们首先基于SPVConv定义了一个灵活的架构设计空间,然后提出了三维神经架构搜索(3D Neural Architecture Search, 3D-NAS)方法,在这个多样化的设计空间中高效且有效地搜索最优网络架构。实验结果验证了所提出的SPVNAS模型既快速又准确:它比最先进的MinkowskiNet提高了3.3%,在竞争激烈的SemanticKITTI排行榜上排名第一。此外,与MinkowskiNet相比,SPVNAS模型不仅实现了8倍的计算量减少和3倍的速度提升,还具有更高的准确性。最后,我们将该方法应用于三维目标检测,在KITTI数据集的一阶段检测基线上取得了持续的性能改进。
代码仓库
mit-han-lab/torchsparse
pytorch
GitHub 中提及
chenfengxu714/image2point
pytorch
GitHub 中提及
pjlab-adg/openpcseg
pytorch
GitHub 中提及
pjlab-adg/pcseg
pytorch
GitHub 中提及
Pointcept/Pointcept
pytorch
mit-han-lab/spvnas
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-semantic-segmentation-on-semantickitti | SPVNAS | test mIoU: 66.4% val mIoU: 64.7% |
| lidar-semantic-segmentation-on-nuscenes | SPVCNN++ | test mIoU: 0.811 |
| lidar-semantic-segmentation-on-nuscenes | SPVNAS | test mIoU: 0.77 |
| robust-3d-semantic-segmentation-on | SPVCNN-34 | mean Corruption Error (mCE): 99.16% |
| robust-3d-semantic-segmentation-on | SPVCNN-18 | mean Corruption Error (mCE): 100.30% |
| robust-3d-semantic-segmentation-on-nuscenes-c | SPVCNN-18 | mean Corruption Error (mCE): 106.65% |
| robust-3d-semantic-segmentation-on-nuscenes-c | SPVCNN-34 | mean Corruption Error (mCE): 97.45% |
| robust-3d-semantic-segmentation-on-wod-c | SPVCNN-18 | mean Corruption Error (mCE): 103.60% |
| robust-3d-semantic-segmentation-on-wod-c | SPVCNN-34 | mean Corruption Error (mCE): 98.72% |