
摘要
基于视觉的语义场景补全(SSC)因其在各种3D感知任务中的广泛应用而受到广泛关注。现有的从稀疏到密集的方法通常在不同的输入图像中使用共享的上下文无关查询,这无法捕捉不同输入之间的区别,因为不同输入的焦点区域各不相同,可能导致跨注意力机制下的无导向特征聚合。此外,缺乏深度信息可能会导致投影到图像平面上的点共享相同的2D位置或在特征图中具有相似的采样点,从而产生深度模糊问题。本文提出了一种新颖的上下文和几何感知体素变换器。该变换器利用上下文感知查询生成器初始化针对每个输入图像定制的上下文相关查询,有效捕捉其独特特性并在感兴趣区域内聚合信息。此外,它将可变形交叉注意力机制从2D扩展到3D像素空间,使得可以根据深度坐标区分具有相似图像坐标的点。在此模块基础上,我们引入了一个名为CGFormer的神经网络以实现语义场景补全。同时,CGFormer利用多种3D表示方法(即体素和TPV),从局部和全局视角提升转换后的3D体积的语义和几何表示能力。实验结果表明,CGFormer在SemanticKITTI和SSCBench-KITTI-360基准测试中取得了最先进的性能,分别达到了16.87和20.05的mIoU值以及45.99和48.07的IoU值。值得注意的是,即使在不使用时间序列图像作为输入或更大规模的图像主干网络的情况下,CGFormer的表现依然优于其他方法。
代码仓库
pkqbajng/cgformer
官方
pytorch
GitHub 中提及
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| 3d-semantic-scene-completion-from-a-single-1 | CGFormer | mIoU: 16.63 |
| 3d-semantic-scene-completion-from-a-single-2 | CGFormer | mIoU: 20.05 |