6 个月前

摘要

作为计算机视觉领域一个重要的挑战性问题，全景语义分割（Panoramic Semantic Segmentation, PASS）基于超广角视野实现了对场景的完整感知。然而，当前主流的PASS方法通常以二维全景图像作为输入，主要关注图像畸变的校正，却忽视了原始360°数据所蕴含的三维几何特性。因此，当输入的全景图像受到三维扰动时，其性能显著下降。为提升对三维扰动的鲁棒性，本文提出了一种面向全景语义分割的球面几何感知Transformer模型（Spherical Geometry-Aware Transformer for PAnoramic Semantic Segmentation, SGAT4PASS），该模型充分融合了球面几何知识。具体而言，我们设计了一种球面几何感知的框架，包含三个核心模块：球面几何感知的图像投影、球面可变形块嵌入（spherical deformable patch embedding）以及全景感知损失函数。其中，球面几何感知的图像投影模块能够有效建模输入数据的三维球面结构；球面可变形块嵌入模块在现有可变形嵌入基础上引入球面几何约束，以更好地适应球面空间的非均匀特性；全景感知损失函数则显式考虑原始360°数据的像素密度分布，增强模型对全局结构的理解能力。在Stanford2D3D全景数据集上的实验结果表明，SGAT4PASS显著提升了模型的性能与鲁棒性，mIoU指标平均提升约2%。尤其在输入数据存在微小三维扰动的情况下，模型性能的稳定性提升了整整一个数量级。相关代码与补充材料已开源，访问地址为：https://github.com/TencentARC/SGAT4PASS。