4 个月前

RoadFormer:用于RGB-法线语义道路场景解析的双工变压器模型

RoadFormer:用于RGB-法线语义道路场景解析的双工变压器模型

摘要

近期在深度卷积神经网络领域的进展在道路场景解析方面展现出显著的潜力。然而,现有的研究主要集中在自由空间检测上,对可能影响驾驶安全和舒适性的危险道路缺陷关注较少。本文介绍了一种名为RoadFormer的新颖基于Transformer的数据融合网络,专门用于道路场景解析。RoadFormer采用双路编码器架构,从RGB图像和表面法线信息中提取异构特征。随后,这些编码后的特征被输入到一个新颖的异构特征协同模块中,以实现有效的特征融合和重新校准。像素解码器则从融合和重新校准的异构特征中学习多尺度长程依赖关系,并通过Transformer解码器生成最终的语义预测结果。此外,我们发布了SYN-UDTIRI数据集,这是首个大规模的道路场景解析数据集,包含超过10,407张RGB图像、密集深度图像以及相应的像素级注释,涵盖了不同形状和大小的自由空间和道路缺陷。我们在SYN-UDTIRI数据集以及三个公开数据集(包括KITTI道路、CityScapes和ORFD)上进行了广泛的实验评估,结果表明RoadFormer在道路场景解析方面优于所有其他最先进的网络。特别是,RoadFormer在KITTI道路基准测试中排名第一。我们的源代码、创建的数据集及演示视频已公开发布于mias.group/RoadFormer。

基准测试

基准方法指标
semantic-segmentation-on-syn-udtiriRoadFormer (B)
IoU: 93.06
semantic-segmentation-on-syn-udtiriRoadFormer (L)
IoU: 93.51

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
RoadFormer:用于RGB-法线语义道路场景解析的双工变压器模型 | 论文 | HyperAI超神经