
摘要
基于视觉的感知与推理对于任何自主系统中的场景理解都至关重要。RGB图像与深度图像常被用于捕捉环境的语义特征与几何特征。在实际应用中,由于测量噪声难以避免,开发能够可靠解析此类数据的方法尤为关键。本文提出一种基于扩散模型的框架,以解决RGB-D语义分割问题。此外,我们验证了采用可变形注意力Transformer作为编码器从深度图像中提取特征,能够有效捕捉深度测量中无效区域的特性。所提出的生成式框架在建模RGB-D图像潜在分布方面展现出更强的能力,在复杂场景下表现出优异的鲁棒性,且相较于判别式方法,显著减少了训练时间。实验结果表明,我们的方法在NYUv2与SUN-RGBD两个数据集上均达到了当前最优(SOTA)性能,尤其在最具挑战性的图像数据上表现突出。项目主页将发布于:https://diffusionmms.github.io/
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| semantic-segmentation-on-nyu-depth-v2 | DiffusionMMS (DAT++-S) | Mean IoU: 61.5 |