
摘要
我们提出 Mix3D,一种用于大规模 3D 场景分割的数据增强技术。由于场景上下文有助于推断物体语义,当前的研究普遍采用具有大容量和大感受野的模型,以充分捕捉输入 3D 场景的全局上下文信息。然而,过强的上下文先验可能导致不利影响,例如将横穿马路的行人误判为车辆。在本工作中,我们关注全局场景上下文与局部几何结构之间的平衡,旨在使模型能够超越训练数据中固有的上下文先验,实现更优的泛化能力。具体而言,我们提出一种“混合”(mixing)技术,通过组合两个增强后的场景来生成新的训练样本。该方法使物体实例被隐式地置于全新的、脱离原有上下文的环境中,从而迫使模型无法仅依赖场景上下文进行判断,而必须同时结合局部结构信息来推断语义。我们进行了详尽的分析,以深入理解全局上下文、局部结构以及场景混合操作对模型性能的影响。实验结果表明,采用 Mix3D 训练的模型在室内数据集(ScanNet、S3DIS)和室外数据集(SemanticKITTI)上均实现了显著的性能提升。Mix3D 可轻松集成至现有方法中:例如,使用 Mix3D 训练的 MinkowskiNet 在 ScanNet 测试基准上取得了 78.1 mIoU 的成绩,显著超越此前所有先进方法。代码已开源,地址为:https://nekrasov.dev/mix3d/
代码仓库
kumuji/mix3d
官方
pytorch
GitHub 中提及
tejasanvekar/gpr-net
pytorch
GitHub 中提及
TejasAnvekar/Mahalanobis-k-NN
pytorch
GitHub 中提及
Pointcept/Pointcept
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| semantic-segmentation-on-scannet | Mix3D | test mIoU: 78.1 val mIoU: 73.6 |