
摘要
全景图像以其360度的全方位视角,包含了周围空间的详尽信息,为场景理解提供了丰富的数据基础。要充分挖掘这一潜力,构建鲁棒的全景分割模型,关键在于获取大量昂贵且像素级精细标注的数据。尽管此类标注数据确实存在,但主要集中于窄视角的针孔相机图像,而这些数据在未经处理的情况下,难以作为训练全景模型的优质资源。由于360度全景图像存在显著的几何畸变以及与针孔图像不同的图像特征分布,导致从标注丰富但域不一致的针孔图像域向全景图像域进行知识迁移时性能大幅下降。为克服这一域差异,并融合针孔相机与360度全景视觉中的语义标注信息,我们提出在可变形补丁嵌入(Deformable Patch Embedding, DPE)和可变形多层感知机(Deformable MLP, DMLP)组件中学习物体形变与全景图像畸变,从而将这些机制无缝集成至面向全景语义分割的Transformer模型——Trans4PASS中。此外,我们通过生成多尺度原型特征,并在互信息原型自适应(Mutual Prototypical Adaptation, MPA)框架下对齐这些特征,实现针孔图像与全景图像特征嵌入之间的共享语义对齐,从而实现无监督域自适应。在室内场景的Stanford2D3D数据集上,我们的Trans4PASS模型结合MPA方法,在无需超过1,400张标注全景图像的情况下,实现了与全监督最先进方法相当的性能。在室外场景的DensePASS数据集上,我们的方法在mIoU指标上超越现有最先进水平达14.39%,创下56.38%的新纪录。相关代码将公开发布于:https://github.com/jamycheung/Trans4PASS。
代码仓库
jamycheung/trans4pass
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| semantic-segmentation-on-cityscapes-val | Trans4PASS (Small) | mIoU: 81.1% |
| semantic-segmentation-on-cityscapes-val | Trans4PASS (Tiny) | mIoU: 79.1% |
| semantic-segmentation-on-densepass | Trans4PASS (single-scale) | mIoU: 55.25% |
| semantic-segmentation-on-densepass | Trans4PASS (multi-scale) | mIoU: 56.38% |
| semantic-segmentation-on-stanford2d3d-1 | Trans4PASS (Supervised + Small) | mIoU: 52.1% |
| semantic-segmentation-on-stanford2d3d-1 | Trans4PASS (Supervised + Small + MS) | mIoU: 53.0% |
| semantic-segmentation-on-stanford2d3d-1 | Trans4PASS (UDA + MPA + MS) | mIoU: 51.2% |
| semantic-segmentation-on-stanford2d3d-1 | Trans4PASS (UDA + MPA) | mIoU: 50.8% |
| semantic-segmentation-on-stanford2d3d-1 | Trans4PASS (UDA + Source Only) | mIoU: 48.1% |
| semantic-segmentation-on-synpass | Trans4PASS | mIoU: 38.57% |