
摘要
近年来,三维点云分割取得了显著进展。现有大多数方法侧重于局部特征的聚合,但难以直接建模长程依赖关系。本文提出了一种新型的分层Transformer(Stratified Transformer),能够有效捕捉长程上下文信息,并展现出优异的泛化能力与高性能。具体而言,我们首先提出一种新颖的关键点采样策略:针对每个查询点,以分层方式密集采样其邻近点作为关键点,同时稀疏采样远距离点作为关键点,从而在保持较低计算开销的前提下显著扩大模型的有效感受野,实现对长程上下文的高效建模。此外,为应对不规则点云分布带来的挑战,我们引入了首层点嵌入(first-layer point embedding)机制,用于聚合局部信息,有助于模型更快收敛并提升性能。同时,我们采用上下文感知的相对位置编码,以自适应地捕捉空间位置信息。最后,为解决窗口内点数不固定的问题,我们设计了一种内存高效的实现方式。大量实验结果表明,所提方法在S3DIS、ScanNetv2和ShapeNetPart等多个基准数据集上均表现出卓越的性能与优势。代码已开源,地址为:https://github.com/dvlab-research/Stratified-Transformer。
代码仓库
dvlab-research/stratified-transformer
官方
pytorch
GitHub 中提及
dvlab-research/deepvision3d
pytorch
GitHub 中提及
Pointcept/Pointcept
pytorch
gofinge/pointtransformerv2
pytorch
基准测试
| 基准 | 方法 | 指标 |
|---|---|---|
| semantic-segmentation-on-s3dis-area5 | StratifiedTransformer | Number of params: 8.0M mAcc: 78.1 mIoU: 72.0 oAcc: 91.5 |
| semantic-segmentation-on-scannet | StratifiedFormer | test mIoU: 73.7 val mIoU: 74.3 |