4 个月前

FIDNet:基于完全插值解码的LiDAR点云语义分割

FIDNet:基于完全插值解码的LiDAR点云语义分割

摘要

将点云投影到二维球形范围图像上,可以将激光雷达语义分割任务转化为在范围图像上的二维分割任务。然而,激光雷达范围图像与常规的二维RGB图像仍然存在本质差异;例如,范围图像中的每个位置都编码了独特的几何信息。本文提出了一种新的基于投影的激光雷达语义分割流水线,该流水线包括一种新颖的网络结构和高效的后处理步骤。在网络结构中,我们设计了一个FID(全插值解码)模块,该模块直接使用双线性插值对多分辨率特征图进行上采样。受PointNet++中使用的三维距离插值方法的启发,我们认为FID模块是在$(θ, ϕ)$空间中的二维距离插值版本。作为一个无参数的解码模块,FID通过保持良好的性能大幅降低了模型复杂度。除了网络结构外,我们还发现模型预测结果在不同语义类别之间具有清晰的边界。这促使我们重新思考广泛使用的K近邻后处理是否仍有必要应用于我们的流水线中。随后,我们意识到多对一映射导致了一些点被映射到同一个像素并共享相同标签的现象,从而产生了模糊效应。因此,我们提出了一种NLA(最近标签分配)后处理方法来处理这些被遮挡的点,即将最近的预测标签分配给它们。消融研究表明,NLA后处理步骤比KNN具有更好的性能和更快的推理速度。在SemanticKITTI数据集上,我们的流水线在所有基于投影的方法以及所有逐点解决方案中均以$64 \times 2048$分辨率实现了最佳性能。使用ResNet-34作为骨干网络时,我们的模型可以在单个11G内存的RTX 2080 Ti显卡上完成训练和测试。代码已开源发布。

基准测试

基准方法指标
robust-3d-semantic-segmentation-onFIDNet (64x2048)
mean Corruption Error (mCE): 113.81%
robust-3d-semantic-segmentation-on-nuscenes-cFIDNet
mean Corruption Error (mCE): 122.42%
semi-supervised-semantic-segmentation-on-23Sup.-only (Range View)
mIoU (1% Labels): 33.1
mIoU (10% Labels): 47.7
mIoU (20% Labels): 49.9
mIoU (50% Labels): 52.5
semi-supervised-semantic-segmentation-on-25Sup.-only (Range View)
mIoU (1% Labels): 38.3
mIoU (10% Labels): 57.5
mIoU (20% Labels): 62.7
mIoU (50% Labels): 67.6

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
FIDNet:基于完全插值解码的LiDAR点云语义分割 | 论文 | HyperAI超神经