4 个月前

PanopticFusion:面向在线体素语义映射的“物”与“质”级融合方法

PanopticFusion:面向在线体素语义映射的“物”与“质”级融合方法

摘要

我们提出了一种名为PanopticFusion的新颖在线体素语义映射系统,该系统能够在“背景区域”(stuff)和“前景对象”(things)的层面上进行密集预测。与以往的语义映射系统不同,PanopticFusion不仅能够对背景区域进行密集的类别标签预测,还能对任意前景对象进行单独分割。此外,由于采用了空间哈希体素地图表示方法,我们的系统还具备大规模场景重建和提取带标签网格的能力。系统首先通过融合2D语义分割和实例分割的输出结果,为传入的RGB帧预测像素级全景标签(包括背景区域的类别标签和前景对象的实例ID)。在将预测的全景标签与深度测量值一起整合到体素地图中时,通过参考当前时刻的3D地图来保持实例ID的一致性,因为这些ID可能会随帧变化而变化。此外,我们构建了一个关于全景标签的全连接条件随机场(CRF)模型来进行地图正则化。为了实现在线CRF推理,我们提出了一种新的单元势近似方法和一种地图划分策略。我们在ScanNet(v2)数据集上评估了系统的性能。PanopticFusion在语义分割和实例分割基准测试中均优于或可与最先进的离线3D深度神经网络(DNN)方法相媲美。此外,我们还展示了利用该系统生成的3D全景图在增强现实应用中的潜力。

基准测试

基准方法指标
panoptic-segmentation-on-scannetPanopticFusion
PQ: 33.5
PQ_st: 58.4
PQ_th: 30.8
panoptic-segmentation-on-scannetv2PanopticFusion (with CRF)
PQ: 33.5
Params (M): N/A
RQ: 45.3
SQ: 73.0
semantic-segmentation-on-scannetPanopticFusion
test mIoU: 52.9

用 AI 构建 AI

从想法到上线——通过免费 AI 协同编程、开箱即用的环境和市场最优价格的 GPU 加速您的 AI 开发

AI 协同编程
即用型 GPU
最优价格
立即开始

Hyper Newsletters

订阅我们的最新资讯
我们会在北京时间 每周一的上午九点 向您的邮箱投递本周内的最新更新
邮件发送服务由 MailChimp 提供
PanopticFusion:面向在线体素语义映射的“物”与“质”级融合方法 | 论文 | HyperAI超神经