
摘要
理解室内场景对于城市研究至关重要。考虑到室内环境的动态特性,有效的语义分割不仅需要实时操作,还需要高精度。为此,我们提出了一种新型网络——AsymFormer,该网络利用RGB-D多模态信息在不显著增加网络复杂度的情况下提高了实时语义分割的准确性。AsymFormer采用非对称主干网络进行多模态特征提取,通过优化计算资源分配减少冗余参数。为了融合非对称多模态特征,引入了局部注意力引导特征选择(Local Attention-Guided Feature Selection, LAFS)模块,该模块通过利用不同模态之间的依赖关系有选择地融合特征。随后,引入了跨模态注意力引导特征相关嵌入(Cross-Modal Attention-Guided Feature Correlation Embedding, CMA)模块,进一步提取跨模态表示。AsymFormer在NYUv2数据集上达到了54.1%的mIoU,在SUNRGBD数据集上达到了49.1%的mIoU,展示了具有竞争力的结果。值得注意的是,AsymFormer在RTX3090显卡上的推理速度为65 FPS(实施混合精度量化后为79 FPS),表明AsymFormer能够在高精度和效率之间取得平衡。
代码仓库
Fourier7754/AsymFormer
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| real-time-semantic-segmentation-on-nyu-depth-1 | AsymFormer | Speed (FPS): 65.5 (3090) Speed(ms/f): 15.3 mIoU: 54.1 |
| semantic-segmentation-on-nyu-depth-v2 | AsymFormer | Mean IoU: 55.3% |
| semantic-segmentation-on-sun-rgbd | DFormer-B | Mean IoU: 49.1% |