3 个月前

基于扩散模型的RGB-D语义分割方法:可变形注意力Transformer

基于扩散模型的RGB-D语义分割方法:可变形注意力Transformer

摘要

基于视觉的感知与推理对于任何自主系统中的场景理解都至关重要。RGB图像与深度图像常被用于捕捉环境的语义特征与几何特征。在实际应用中,由于测量噪声难以避免,开发能够可靠解析此类数据的方法尤为关键。本文提出一种基于扩散模型的框架,以解决RGB-D语义分割问题。此外,我们验证了采用可变形注意力Transformer作为编码器从深度图像中提取特征,能够有效捕捉深度测量中无效区域的特性。所提出的生成式框架在建模RGB-D图像潜在分布方面展现出更强的能力,在复杂场景下表现出优异的鲁棒性,且相较于判别式方法,显著减少了训练时间。实验结果表明,我们的方法在NYUv2与SUN-RGBD两个数据集上均达到了当前最优(SOTA)性能,尤其在最具挑战性的图像数据上表现突出。项目主页将发布于:https://diffusionmms.github.io/

基准测试

基准方法指标
semantic-segmentation-on-nyu-depth-v2DiffusionMMS (DAT++-S)
Mean IoU: 61.5

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
基于扩散模型的RGB-D语义分割方法:可变形注意力Transformer | 论文 | HyperAI超神经