
摘要
实时激光雷达(LiDAR)数据的语义分割对于自动驾驶车辆至关重要,这些车辆通常配备有嵌入式平台,且计算资源有限。直接在点云上操作的方法使用复杂的空间聚合运算,这不仅成本高昂而且难以针对嵌入式平台进行优化,因此不适合用于嵌入式系统的实时应用。作为替代方案,基于投影的方法更为高效,可以在嵌入式平台上运行。然而,当前最先进的基于投影的方法在准确性方面不如基于点云的方法,并且需要数百万个参数。因此,在本文中,我们提出了一种称为多尺度交互网络(Multi-scale Interaction Network, MINet)的基于投影的方法,该方法具有很高的效率和准确性。该网络使用多个不同尺度的路径,并在各尺度之间平衡计算资源。此外,各尺度之间的密集交互避免了冗余计算,使得网络高度高效。所提出的网络在准确性、参数数量和运行时间方面均优于基于点云、基于图像和基于投影的方法。此外,该网络在嵌入式平台上每秒可处理超过24次扫描,高于激光雷达传感器的帧率。因此,该网络适用于自动驾驶车辆。
代码仓库
PRBonn/LiDAR-MOS
pytorch
GitHub 中提及
sj-li/minet
官方
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-semantic-segmentation-on-semantickitti | MINet | test mIoU: 55.2% |
| real-time-3d-semantic-segmentation-on-1 | MINet | Parameters (M): 1.0 Speed (FPS): 47 mIoU: 55.2 |