3 个月前

用于室内场景解析的变分上下文可变形卷积网络

用于室内场景解析的变分上下文可变形卷积网络

摘要

上下文信息对于图像语义分割至关重要。特别是在室内场景中,物体尺度变化较大,空间上下文成为提升分割性能的重要因素。为此,本文提出一种新颖的变分上下文可变形(Variational Context-Deformable, VCD)模块,以结构化的方式学习自适应感受野。与传统卷积神经网络(ConvNets)对所有像素共享固定尺寸空间上下文不同,VCD模块在深度信息的引导下学习可变形的空间上下文:深度信息为识别真实的局部邻域提供了关键线索。具体而言,该模块在多模态信息的指导下学习自适应的高斯核函数。通过将学习得到的高斯核与标准卷积核相乘,VCD模块能够在卷积过程中为每个像素聚合灵活的空间上下文信息。本文的主要贡献如下:1)提出一种新型的VCD模块,利用可学习的高斯核实现具有结构化自适应上下文的特征学习;2)引入变分贝叶斯概率建模来训练VCD模块,使其具备连续性并提升训练稳定性;3)设计了一种视角感知引导模块,有效利用多模态信息(如RGB与深度信息)以增强RGB-D语义分割性能。我们在三个广泛使用的数据集上对所提方法进行了评估,实验结果表明,该方法在分割性能上显著优于现有方法,充分验证了其有效性。

基准测试

基准方法指标
scene-parsing-on-cityscapes-testVCD No Coarse
mIoU: 82.3
semantic-segmentation-on-gamusVCD
mIoU: 59.70
semantic-segmentation-on-nyu-depth-v2VCD+RedNet (ResNet-50)
Mean IoU: 50.7%
semantic-segmentation-on-nyu-depth-v2VCD+ACNet (ResNet-50)
Mean IoU: 51.9%
semantic-segmentation-on-nyu-depth-v2VCD+DeepLab (VGG16)
Mean IoU: 45.3

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
用于室内场景解析的变分上下文可变形卷积网络 | 论文 | HyperAI超神经