
摘要
卷积神经网络(CNN)由于其固定的网格核结构,处理几何信息的能力有限。深度数据的可用性使得利用CNN在RGB-D语义分割方面取得了进展。现有的最先进方法要么将深度作为附加图像使用,要么在三维体素或点云中处理空间信息。然而,这些方法面临着高计算成本和内存消耗的问题。为了解决这些问题,我们提出了一种深度感知CNN,通过引入两种直观、灵活且有效的操作:深度感知卷积和深度感知平均池化。通过在信息传播过程中利用像素之间的深度相似性,几何信息被无缝地融入到CNN中。这两种操作无需引入任何额外参数,可以轻松集成到现有的CNN架构中。我们在具有挑战性的RGB-D语义分割基准上进行了广泛的实验和消融研究,验证了我们方法的有效性和灵活性。
代码仓库
virkay/DepthAwareCNN2
pytorch
GitHub 中提及
laughtervv/DepthAwareCNN
官方
pytorch
GitHub 中提及
iriszero/DepthAwareCNNplus
pytorch
GitHub 中提及
aksh1501/DepthAware_CNN_edit
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| semantic-segmentation-on-nyu-depth-v2 | Depth-aware CNN | Mean IoU: 43.9% |
| semantic-segmentation-on-stanford2d3d-rgbd | Depth-aware CNN | Pixel Accuracy: 65.4 mAcc: 55.5 mIoU: 39.5 |
| semantic-segmentation-on-sun-rgbd | TokenFusion (S) | Mean IoU: 42.0% |
| thermal-image-segmentation-on-mfn-dataset | Depth-aware CNN | mIOU: 46.1 |